Afwijking versus standaarddeviatie
Afwijking versus standaarddeviatie
In beschrijvende en inferentiële statistieken worden verschillende indices gebruikt om een gegevensset te beschrijven die overeenkomt met de centrale tendens, spreiding en scheefheid. In statistische gevolgtrekkingen zijn deze algemeen bekend als schatters omdat ze de populatieparameterwaarden schatten.
Verspreiding is de maat voor de spreiding van gegevens rond het midden van de gegevensset. Standaarddeviatie is een van de meest gebruikte spreidingsmaatstaven. Bij de berekening van de standaarddeviatie wordt rekening gehouden met de afwijkingen van elk gegevenspunt van het gemiddelde. Men kan dus stellen dat de standaarddeviatie samen met het gemiddelde een bijna voldoende beeld geeft van een dataset.
Beschouw de volgende dataset. De gewichten van 10 personen (in kilogram) worden gemeten als 70, 62, 65, 72, 80, 70, 63, 72, 77 en 79. Dan is het gemiddelde gewicht van de tien personen (in kilogram) 71 (in kilogram).
Wat is afwijking?
In statistieken betekent afwijking de hoeveelheid waarmee een enkel gegevenspunt verschilt van een vaste waarde zoals het gemiddelde. Laat in het algemeen k een vaste waarde zijn en x1, x2, …, xn duiden een data aan set. Vervolgens wordt de afwijking van xj van k gedefinieerd als (xj– k).
In de bovenstaande dataset zijn de respectieve afwijkingen van het gemiddelde bijvoorbeeld (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 en (79 – 71)=8.
Wat is standaarddeviatie?
Wanneer gegevens van de hele populatie in aanmerking kunnen worden genomen (bijvoorbeeld in het geval van een volkstelling), is het mogelijk om de standaarddeviatie van de populatie te berekenen. Om de standaarddeviatie van de populatie te berekenen, worden eerst de afwijkingen van de gegevenswaarden van het populatiegemiddelde berekend. Het kwadratisch gemiddelde van de afwijkingen wordt de populatiestandaarddeviatie genoemd. In symbolen, σ=√{ ∑(xi-µ)2 / n} waarbij µ het populatiegemiddelde is en n de populatiegrootte.
Wanneer gegevens van een steekproef (van grootte n) worden gebruikt om parameters van de populatie te schatten, wordt de standaarddeviatie van de steekproef berekend. Eerst worden de afwijkingen van de gegevenswaarden van het steekproefgemiddelde berekend. Aangezien het steekproefgemiddelde wordt gebruikt in plaats van het populatiegemiddelde (dat niet bekend is), is het niet geschikt om het kwadratisch gemiddelde te nemen. Om het gebruik van het steekproefgemiddelde te compenseren, wordt de som van de kwadraten van afwijkingen gedeeld door (n-1) in plaats van n. De standaarddeviatie van de steekproef is de vierkantswortel hiervan. In wiskundige symbolen is S=√{ ∑(xi-ẍ)2 / (n-1)}, waarbij S de standaarddeviatie van het monster is, ẍ is het steekproefgemiddelde en xi's zijn de gegevenspunten.
In de vorige dataset is de som van de kwadraten van de afwijking (-1)2 + (-9)2 + (-6)2 + 12 + 92 + (-1) 2 + (-8)2 + 12 + 62 + 82=366. De standaarddeviatie van de populatie is dus √(366/10)=6,05 (in kilogram). (Ervan uitgaande dat de populatie in kwestie bestaat uit de 10 mensen van wie de gegevens afkomstig zijn).
Wat is het verschil tussen deviatie en standaarddeviatie?
• Standaarddeviatie is een statistische index en een schatter, maar deviatie is dat niet.
• Standaarddeviatie is een maatstaf voor de spreiding van een cluster van gegevens vanuit het centrum, terwijl deviatie verwijst naar de hoeveelheid waarmee een enkel gegevenspunt verschilt van een vaste waarde.