Centrale tendens versus spreiding
In beschrijvende en inferentiële statistieken worden verschillende indices gebruikt om een dataset te beschrijven die overeenkomt met de centrale tendens, spreiding en scheefheid: de drie belangrijkste eigenschappen die de relatieve vorm van de distributie van een dataset bepalen.
Wat is de centrale tendens?
Centrale tendens verwijst naar en lokaliseert het centrum van de verdeling van waarden. Gemiddelde, modus en mediaan zijn de meest gebruikte indices bij het beschrijven van de centrale tendens van een dataset. Als een dataset symmetrisch is, dan vallen zowel de mediaan als het gemiddelde van de dataset met elkaar samen.
Gegeven een gegevensset, wordt het gemiddelde berekend door de som van alle gegevenswaarden te nemen en deze vervolgens te delen door het aantal gegevens. Het gewicht van 10 personen (in kilogram) wordt bijvoorbeeld gemeten als 70, 62, 65, 72, 80, 70, 63, 72, 77 en 79. Dan kan het gemiddelde gewicht van de tien personen (in kilogram) worden als volgt berekend. De som van de gewichten is 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Gemiddelde=(som) / (aantal gegevens)=710 / 10=71 (in kilogram). Het is duidelijk dat uitbijters (gegevenspunten die afwijken van de normale trend) de neiging hebben om het gemiddelde te beïnvloeden. Dus in de aanwezigheid van uitbijters geeft het gemiddelde alleen geen correct beeld van het centrum van de dataset.
De mediaan is het gegevenspunt dat precies in het midden van de gegevensset wordt gevonden. Een manier om de mediaan te berekenen, is door de gegevenspunten in oplopende volgorde te ordenen en vervolgens het gegevenspunt in het midden te lokaliseren. Als de vorige dataset er bijvoorbeeld als volgt uitziet, 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Daarom staat (70+72)/2=71 in het midden. Hieruit blijkt dat de mediaan niet in de dataset hoeft te zijn. De mediaan wordt niet beïnvloed door de aanwezigheid van de uitbijters. Daarom zal de mediaan dienen als een betere maatstaf voor de centrale tendens in de aanwezigheid van uitbijters.
De modus is de meest voorkomende waarde in de gegevensset. In het vorige voorbeeld komen de waarde 70 en 72 beide twee keer voor en dus zijn beide modi. Dit toont aan dat er in sommige distributies meer dan één modale waarde is. Als er maar één modus is, wordt gezegd dat de dataset unimodaal is, in dit geval is de dataset bimodaal.
Wat is dispersie?
Dispersie is de hoeveelheid spreiding van gegevens over het centrum van de distributie. Bereik en standaarddeviatie zijn de meest gebruikte spreidingsmaten.
Het bereik is gewoon de hoogste waarde minus de laagste waarde. In het vorige voorbeeld is de hoogste waarde 80 en de laagste waarde 62, dus het bereik is 80-62=18. Maar het bereik geeft geen voldoende beeld van de spreiding.
Om de standaarddeviatie te berekenen, worden eerst de afwijkingen van de gegevenswaarden van het gemiddelde berekend. Het kwadratisch gemiddelde van afwijkingen wordt de standaarddeviatie genoemd. In het vorige voorbeeld zijn de respectievelijke afwijkingen van het gemiddelde (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 en (79 – 71)=8. De som van kwadraten van afwijking is (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 De standaarddeviatie is √ (366/10)=6,05 (in kilogram). Tenzij de dataset erg scheef is, kan hieruit worden geconcludeerd dat de meerderheid van de data zich in het interval 71±6,05 bevindt, en dat is in dit specifieke voorbeeld ook zo.
Wat is het verschil tussen centrale tendens en spreiding?
• Centrale tendens verwijst naar en lokaliseert het centrum van de verdeling van waarden
• Verspreiding is de hoeveelheid spreiding van gegevens over het centrum van een gegevensverzameling.