Gemiddelde versus mediaan versus modus
Gemiddelde, mediaan en modus zijn de primaire maten van centrale tendens die worden gebruikt in beschrijvende statistieken. Ze zijn totaal verschillend van elkaar en de gevallen waarin ze worden gebruikt om de gegevens samen te vatten, zijn ook verschillend.
Gemiddelde
Het rekenkundig gemiddelde is de som van de gegevenswaarden gedeeld door het aantal gegevenswaarden, d.w.z.
[latex]\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}=\frac{x_{1}+x_{2} +x_{3}+…+x_{n}}{n}[/latex]
Als de gegevens uit een steekproefruimte komen, wordt dit een steekproefgemiddelde ([latex]\bar{x} [/latex]) genoemd, wat een beschrijvende statistiek van de steekproef is. Hoewel het de meest gebruikte beschrijvende maatstaf voor een steekproef is, is het geen robuuste statistiek. Het is erg gevoelig voor uitbijters en oscillaties.
Beschouw bijvoorbeeld het gemiddelde inkomen van de inwoners van een bepaalde stad. Omdat alle gegevenswaarden worden opgeteld en vervolgens worden gedeeld, beïnvloedt het inkomen van een extreem vermogende persoon het gemiddelde aanzienlijk. Daarom zijn de gemiddelde waarden niet altijd een goede weergave van de gegevens.
In het geval van een wisselsignaal varieert de stroom die door een element gaat periodiek van de positieve richting naar de negatieve richting en vice versa. Als we de gemiddelde stroom nemen die door het element in een enkele periode gaat, geeft dit een 0, wat betekent dat er geen stroom door het element is gegaan, wat duidelijk niet waar is. Daarom is ook in dit geval het rekenkundig gemiddelde geen goede maatstaf.
Het rekenkundig gemiddelde is een goede indicator wanneer de gegevens gelijkmatig zijn verdeeld. Voor een normale verdeling is het gemiddelde gelijk aan de modus en de mediaan. Het heeft ook de laagste residuen bij het beschouwen van de root mean squared error; daarom de beste beschrijvende maatstaf wanneer het nodig is om een dataset door een enkel getal weer te geven.
Mediaan
De waarden van het middelste gegevenspunt nadat alle gegevenswaarden in oplopende volgorde zijn gerangschikt, worden gedefinieerd als de mediaan van de gegevensset. Mediaan is het 2e kwartiel, 5e deciel en 50e percentiel.
• Als het aantal waarnemingen (datapunten) oneven is, dan is de mediaan de waarneming precies in het midden van de geordende lijst.
• Als het aantal waarnemingen (gegevenspunten) even is, dan is de mediaan het gemiddelde van de twee middelste waarnemingen in de geordende lijst.
Mediaan verdeelt de waarneming in twee groepen; d.w.z. een groep (50%) waarden hoger en een groep (50%) waarden lager dan de mediaan. Medianen worden specifiek gebruikt in scheve verdelingen en vertegenwoordigen gegevens redelijk beter dan het rekenkundig gemiddelde.
Modus
Modus is het meest voorkomende getal in een reeks waarnemingen. De modus van een dataset wordt berekend door de frequentie van elk element binnen de set te vinden.
• Als geen enkele waarde meer dan één keer voorkomt, heeft de dataset geen modus.
• Anders is elke waarde die met de grootste frequentie voorkomt een modus van de dataset.
Er kan meer dan 1 modus in een set voorkomen; daarom is modus geen unieke statistiek van een dataset. In een uniforme verdeling is er één modus. De modus van een discrete kansverdeling is het punt waar de kansmassafunctie zijn hoogste punt bereikt. Rendering van bovenstaande interpretaties, kunnen we zeggen dat globale maxima modi zijn.
Overweeg de toepassing van alle drie de maatregelen op de volgende dataset.
GEGEVENS: {1, 1, 2, 3, 5, 5, 5, 5, 6, 6, 8, 8, 9, 9, 9, 9, 9, 10, 10, 10, 14, 14, 15, 15, 15}
Gemiddelde=(1+ 1+ 2+ 3+ 5+ 5+ 5+ 5+ 6+ 6+ 8+ 8+ 9+ 9+ 9+ 9+ 10+ 10+ 10+ 14+ 14+ 15+ 15+ 15) / 25=8.12
Mediaan=9 (13e element)
Modus=9 (frequentie van 9=5)
Wat is het verschil tussen gemiddelde, mediaan en modus?
• Rekenkundig gemiddelde is de som van de waarden (waarnemingen) gedeeld door het aantal waarnemingen. Het is geen robuuste statistiek en is sterk afhankelijk van het normale karakter van de verdeling binnen de beschouwde verdeling. Een enkele uitbijter kan een significante verschuiving in het gemiddelde veroorzaken, wat relatief misleidende waarden oplevert. Het concept kan worden uitgebreid tot geometrisch gemiddelde, harmonisch gemiddelde, gewogen gemiddelde enzovoort.
• Mediaan is de middelste waarde van de reeks waarnemingen en wordt relatief minder beïnvloed door uitschieters. Het kan een goede schatting geven als de samenvattende statistiek in zeer scheve gevallen.
• Modus is de meest voorkomende waarnemingswaarden in de dataset. Als de verdeling positief scheef is, ligt de modus links van de mediaan en, indien negatief scheef, ligt de modus rechts van de mediaan.
• Als het positief scheef is, is het gemiddelde gelijk aan de mediaan; als negatief scheefgetrokken gemiddelde zich links van de mediaan bevindt.
• In de normale verdeling zijn alle drie, gemiddelde, modus en mediaan gelijk.