In deze blog van onze reeks over statistiek zullen we praten over de normaalverdeling en alles wat daarmee te maken heeft: de eigenschappen, de standaardnormale verdeling, de z-score en ook de centrale limietstelling. Omdat de normaalverdeling een uitdagend onderwerp is, leggen we alles uit met behulp van overzichtelijke voorbeelden, met hondjes! đ
Een verdeling geeft op de horizontale X-as alle mogelijke waarden van een bepaalde variabele weer, terwijl het op de verticale Y-as de frequentie of kans weergeeft waarmee deze waardes voorkomen. Wat is nou precies een variabele? Kijk dan even naar onze blog over variabelen om je geheugen op te frissen.
Omdat de normaalverdeling zo vaak voorkomt, kunnen we het als de norm beschouwen (vandaar de naam!). Voorbeelden van variabelen die vaak de normaalverdeling volgen zijn: IQ, leeftijd, lengte, gewicht, examenresultaten, etc. Dit maakt de normaalverdeling een van dé belangrijkste onderdelen van de statistiek en vormt de basis van veel geavanceerde statistiek, zoals het testen van hypotheses.
Normaalverdeling: de kenmerken
Zoals je in de afbeelding hierboven kan zien, heeft de normaalverdeling een heel herkenbare vorm: de centrale piek van de curve wordt gevormd door het gemiddelde, en hoe meer afstand je neemt van die centrale piek, hoe platter de curve wordt. Deze vorm zou je ook een beetje kunnen zien als een grote bel of een klok. Daarom staat deze curve ook bekend als de klokcurve (of in het Engels: âbell curveâ).
De klokcurve wordt mede bepaald door de standaardafwijking, wat informatie geeft over hoe verspreid de variabele is. Wil je meer weten over de standaardafwijking? Lees dan onze blog over standaardafwijking.
Als de normaalverdeling smal en lang is, dan is de standaardafwijking klein. De meeste waardes van de variabelen zullen dan niet ver afwijken van het gemiddelde. Als de normaalverdeling breed en plat is, dan is de standaardafwijking groot. In dat geval is het bereik van de waardes wel veel groter of kleiner dan het gemiddelde. Op deze website kun je zelf oefenen met verschillende waardes zodat je kan zien hoe de vorm van de normaalverdeling kan veranderen.
Normaalverdeling: de eigenschappen die ons helpen rekenen
De normaalverdeling helpt ons ook bij het maken van berekeningen. Eigenschappen zoals perfecte symmetrie, gemiddelde/mediaan/modus zijn gelijk en je weet altijd hoeveel procent(%) van de populatie hondjes binnen hoeveel standaardafwijkingen valt.
Perfecte symmetrie
Rond het gemiddelde is de verdeling perfect symmetrisch. Links en rechts van het gemiddelde is het dus precies gelijk aan elkaar, net als je eigen spiegelbeeld wanneer je in de spiegel kijkt.
In elke normaalverdeling zijn het gemiddelde, de mediaan en modus gelijk
Omdat het gemiddelde, de mediaan en de modus allemaal gelijk zijn, weet je gelijk de waardes van alle drie wanneer je er maar Ă©Ă©n van kent. Extra berekeningen zijn daar dus niet voor nodig. In onze eerste blog over statistiek kun je lezen wat het gemiddelde, de mediaan en de modus ook alweer precies zijn.
Hoe is dit mogelijk? Net zoals je het logo van hondenschool Canis kunt herkennen als het huis met een logo van een hond in het midden van de gevel, kan je ook de normaalcurve herkennen van een klok met het gemiddelde in het midden. Is dat gemiddelde niet in het midden en zie je geen vorm van een klok? Dan is het dus geen normaalcurve, net zoals een winkelvitrine met het logo van een vis natuurlijk niet onze hondenschool kan zijn.
Dankzij de symmetrie van de normaalcurve weten we dat de mediaan ook in het midden ligt (en dus gelijk is aan het gemiddelde), waardoor het ook met zekerheid te stellen is dat van deze waarde de ene helft van de mediaan groter is dan de andere. De modus is de meestvoorkomende waarde en vormt dus de piek van de curve, die vanwege diezelfde symmetrie ook precies in het midden zit.
De standaardafwijking vertelt je om hoeveel procent het gaat
Van alle waardes van een variabele met de normaalverdeling vallen ongeveer 68%, 95% en 99,7% respectievelijk binnen 1, 2 en 3 standaardafwijkingen van het gemiddelde. Anders gezegd: als je het gemiddelde en de standaardafwijking kent, kun je makkelijk bepalen binnen welk minimum en maximum het leeuwendeel zal vallen.
Wat is hier de oorzaak van? Dit komt voort uit een wiskundige eigenschap waardoor de normaalcurve symmetrisch is en dus zoân ideale vorm heeft. Je zult merken dat dit altijd geldt, ook als je bijvoorbeeld de normaalcurves van elke klas van hondenschool Canis zou tekenen en elke keer de oppervlakte onder de curve zou berekenen die overeenkomt met 1, 2 en 3 standaardafwijkingen. Gelukkig hoef je dat niet allemaal te doen, in plaats daarvan kun je gewoon deze regel onthouden!
De Z-score en de standaardnormale verdeling: hoe je toch appels en peren kan vergelijken
Normaalverdelingen komen dus in allerlei vormen voor, van breed en plat tot lang en smal. Echter, er is er Ă©Ă©ntje die we in de statistiek beschouwen als ideaal: de standaardnormale verdeling. Behalve de eerder genoemde eigenschappen van de normaalverdeling, heeft de standaardnormale verdeling ook nog een gemiddelde van precies 0 en een standaardafwijking van precies 1.
Ook al streven alle normaalverdelingen ernaar om net zoals de standaardnormale verdeling te zijn, zijn ze eigenlijk altijd een beetje verschillend. Maar gelukkig kun je alle normaalverdelingen met een beetje magie omtoveren naar de standaardnormale verdeling. Deze magie heet de Z-score, ofwel de standaardscore.
De (magische) formule van de Z-score
De Z-score voor een observatie (Zi) bereken je zo:
- Neem de waarde van de observatie (Xi)
- Trek hiervan het gemiddelde (X) af
- Deel dit getal door de standaardafwijking (s)
Deze uitkomst laat ons zien hoe ver de waarde van het gemiddelde valt:
- Een 0 Z-score betekent dat de observatie precies gelijk is aan het gemiddelde
- Een 1 Z-score betekent dat de waarde 1 standaardafwijking groter is dan het gemiddelde
- Andersom betekent een -1 Z-score dat de waarde 1 standaardafwijking kleineris dan het gemiddelde
Z-score toepassing 1: normaliseren
Waar kan de Z-score concreet voor gebruikt worden? Een belangrijke toepassing is normaliseren, waarmee twee verschillende populaties of variabelen op zoân manier worden gelijkgeschakeld dat je ze goed vergelijken kan.
Stel je voor dat bijvoorbeeld in hondenschool Canis twee hondensportexamens gegeven worden: frisbee vangen en flyball. Monty de Golden Retriever won 75 punten bij flyball terwijl Max de labrador een score van 80 punten haalde met frisbee vangen. Welke hond is het sportiefst? Dat is een moeilijke vergelijking. Gelukkig hebben we de Z-score om ons uit de brand te helpen.
Bij flyball was de gemiddelde score van de deelnemende honden 60 punten met een standaardafwijking van 5 punten. Bij het frisbee vangen was de gemiddelde score 70 punten met een standaardafwijking van 10 punten. Allebei de honden deden het dus beter dan gemiddeld. Maar na het berekenen van de Z-score kom je tot de conclusie dat Monty een score van 3 heeft en Max maar een score van 1. Anders gezegd: Monty deed het gemiddeld relatief gezien beter dan Max.
Z-score toepassing 2: de waarschijnlijkheid determineren van een bepaalde waarde van een variabele
Een andere belangrijke toepassing is het determineren hoe waarschijnlijk een bepaalde waarde van de variabele is. Je kunt hiervoor makkelijk gebruik maken van de eigenschappen van de normaalverdeling die we eerder genoemd hebben. Stel je bijvoorbeeld voor dat we een IQ-test voor honden hebben. Bij deze test behalen de hondjes gemiddeld een score van 100 punten met een standaardafwijking van 15 punten. Luna de Duitse herder behaalde 131 punten. Dat betekent dus dat Luna hoger dan 97,5% van alle honden scoort. Wat een slimme hond! Maar hoe kom je nu precies aan dat getal?
Daarvoor beginnen we met de derde regel van de normaalverdeling: die stelt dat ongeveer 95% van alle honden een IQ heeft binnen twee standaardafwijkingen van het gemiddelde (wat overeenkomt met een Z-score van 2), dus tussen 70 en 130. Daar kan je ook uit afleiden dat de overige 5% van honden ofwel een IQ van < 70 of een IQ > 130 heeft. Vanwege de tweede regel weet je al dat het aantal honden met een IQ van < 70 precies gelijk is aan het aantal honden met een IQ > 130 , want de normaalverdeling is symmetrisch. Deze 5% kun je dus meteen verdelen (2,5% + 2,5%) en zo weet je dus ook dat het aantal honden met een IQ < 130 gelijk is aan 97,5% en dat Luna daarom tot het kleine groepje hoort van de 2,5% slimme hondjes!
Voor deze berekening bestaat er ook een standaardnormale tabel. Dat is een tabel die voor elke waarde van de Z-score laat zien welke kans daarmee overeenkomt, welke ongetwijfeld van belang is bij jouw examen statistiek.
Hoe helpt de normaalverdeling ons bij steekproeven en het testen van hypotheses?
De normaalverdeling heeft nog een geheim om prijs te geven. Ook al weten we van veel variabelen dus dat ze de normaalverdeling volgen, geldt dit niet voor alle variabelen. Bij het nemen van steekproeven weten we regelmatig niet welke verdeling de variabele volgt in de populatie. Als je wil weten wat steekproeven zijn en waarom ze zo belangrijk zijn, lees dan deze blog.
Bovengenoemde eigenschappen die het makkelijker maken om statistische berekeningen te maken, zijn dan niet belangrijk. Er blijft echter nog Ă©Ă©n laatste goocheltruc over: de centrale limietstelling.
De centrale limietstelling
Het is een wiskundige wet die echt superhandig is wanneer je met steekproeven werkt. De centrale limietstelling stelt dat naarmate n (de grootte van de steekproef of het aantal in de steekproef) groter wordt, de verdeling van de steekproefgemiddeldes meer en meer de normaalverdeling benadert en dat het steeds zich steeds dichter rond het echte (maar onbekende) populatiegemiddelde verzamelt. Dit gebeurt ongeacht de oorspronkelijke verdeling van de populatie. Hier kan je deze regel zelf uitproberen.
Hierdoor kun je voor steekproeven met een grote n (normaliter is de vuistregel n > 30) gemiddeldes gemakkelijk met elkaar vergelijken met behulp van de principes van de Z-score en de normaalverdeling. Zo komen we in het domein van de hypothesetoetsen. Daarmee kan je onder andere onderzoeken of er significante verschillen zijn tussen twee steekproefgemiddeldes, of te weten komen of katten gemiddeld slimmer zijn dan honden.
Vind je de normaalverdeling toch nog steeds een lastig onderwerp? Of heb je moeite met andere wiskundige onderdelen of statistiek? Vraag dan gerust en geheel vrijblijvend een bijlesdocent wiskunde aan bij BijlesHuis om je te helpen!
Schrijf je hieronder in om een maandelijkse newsletter te ontvangen met onze nieuwe artikels:
wiskunde wiskunde beter begrijpen statistiek normaalverdeling