Het doel van het toetsen van hypotheses is het vaststellen of er voldoende statistisch bewijs is om te concluderen dat een bewering of hypothese over een parameter ondersteund wordt door de data. Het toetsen van hypotheses vormt een basis in de statistiek en is de fundering van menig statistisch onderzoek.
Aan de hand van een voorbeeld zullen de termen H0 en H1 toegelicht worden. Stel iemand wordt beschuldigd van het begaan van een overtreding. Dan kunnen twee zaken e geval zijn. De verdachte is schuldig of de verdachte is niet schuldig. In de statistiek giet men dit in een hypothese vorm waarbij H0 de nulhypothese wordt genoemd en H1 de alternatieve hypothese wordt genoemd. Kortom:
H0: de verdachte is onschuldig
H1: de verdachte is schuldig
Natuurlijk weet men van tevoren niet of de verdachte wel of niet schuldig is. Bewijs zal moeten aantonen wat het geval is. Er zijn twee mogelijke beslissingen. De verdachte veroordelen of de verdachte vrijspreken. In statistisch jargon is het veroordelen van de verdachte gelijk aan het verwerpen van de nulhypothese ten gunste van het alternatief. Het vrijspreken van de verdachte staat voor het niet verwerpen van de nulhypothese ten gunste van het alternatief.
Bij het testen van hypotheses zijn er twee mogelijke fouten die kunnen voorkomen. Er is sprake van een fout van de eerste soort indien een nulhypothese wordt verworpen die eigenlijk waar is. Een fout van de tweede soort houdt in dat een foutieve nulhypothese niet verworpen wordt.
In het voorbeeld hierboven zou sprake zijn van een fout van de eerste soort indien een onschuldig persoon veroordeeld zou worden. Een fout van de tweede soort zou zich voordoen als een schuldig persoon zou worden vrijgesproken.
De kans op een fout van de eerste soort noteert men als aen dit noemt men ook wel het significantie niveau. De kans op een fout van de tweede soort noteert men als β. De kansen op fouten α en β zijn aan elkaar gerelateerd wat inhoudt dat elke poging om de een te verlagen de ander automatisch verhoogt.
Natuurlijk wil men onderzoek ook andere zaken onderzoeken dan puur een nulhypothese die synoniem staat voor “het is zo” en een alternatieve hypothese die synoniem staat voor “het is niet zo”. In het voorbeeld hierboven is hier sprake van. Als men echter onderzoek wil verrichten naar de lengte van schroeven die een machine produceert zou men, indien een schroef een gemiddelde lengte van 50 mm zou moeten hebben, de volgende nulhypothese en alternatieve hypothese kunnen opstellen:
H0: μ = 50
H1: μ ≠ 50
Wat nu opvalt is dat, indien de nulhypothese wordt verworpen, de schroeven óf groter zijn dan 50 mm, of kleiner zijn dan 50 mm. Dit noemt men een tweezijdige hypothese.
Indien men wil onderzoeken of de schroeven groter zijn dan 50 mm dan wordt de alternatieve hypothese:
H1: μ > 50
Dit noemt men een (rechts)eenzijdige hypothese.
Indien men wil onderzoeken of de schroeven groter zijn dan 50 mm dan wordt de alternatieve hypothese:
H1: μ < 50
Dit noemt men een (links)eenzijdige hypothese.
Bij het testen van hypotheses wordt altijd bepaalt welke toetsingsgrootheid wordt getest. De waarde van deze toetsinggrootheid speelt een rol bij het wel of niet verwerpen van de nulhypothese. Overschrijden deze waarden de waarden die van tevoren vastgesteld zijn om de nulhypothese te verwerpen dan wordt de nulhypothese verworpen. Dit kritieke gebied is zo’n gebied van waarden dat als de toetsingsgrootheid in dat gebied valt, de nulhypothese wordt verworpen.
De zogenaamde p-waarde speelt hier ook een rol. In het algemeen geldt dat als de p-waarde kleiner is dan de a(fout van de eerste soort) dat de nulhypothese wordt verworpen.
Er bestaat een schema bestaande uit 7 stappen dat het testen van hypotheses overzichtelijk maakt. Hieronder wordt het 7 stappen schema van de zogenaamde klassieke methode besproken:
Naast de klassieke methode kan ook de p-waarde methode gehanteerd worden. Hier zijn stap 1 tot en met 4 hetzelfde als bij de klassieke methode: