Pleidooi voor onzekerder statistiek

3 januari 2018

Wetenschappers, opgelet. De statistiek die gemeengoed is in kwantitatief onderzoek, waarbij de zogenoemde p-waarde centraal staat en bepaalt of een onderzoek ‘significante’ resultaten biedt, schiet tekort. Dat stelt wiskundige Alexander Ly in een proefschrift waar hij vrijdag 19 januari op promoveert aan de Universiteit van Amsterdam. Hij bestudeert en bepleit een alternatieve statistiek, de Bayesiaanse statistiek, die meer recht doet aan de onzekerheid van de onderzoekspraktijk.

De maatschappij richt zich tot de wetenschap voor inzichten. In de meer pragmatische disciplines gaat dat vaak als volgt: werkt deze interventie, therapie of dit medicijn? Maakt cameratoezicht de straten veiliger, werkt cognitieve gedragstherapie tegen depressie? Het antwoord dat wordt verlangd en doorgaans wordt gegeven is binair: Ja, cognitieve gedragstherapie werkt tegen depressie. Nee, cameratoezicht maakt het niet veiliger op straat.

Significantie

Geen goede zaak, beredeneert wiskundige Alexander Ly. ‘Deze binaire aanpak, waarin een behandeling wel of niet effectief wordt bevonden, doet geen recht aan de diffuse realiteit en ook niet aan de wetenschap,’ licht hij toe. Bij empirisch onderzoek nemen wetenschappers een steekproef, en op basis van gegevens over die steekproef willen ze iets te weten komen over de populatie als geheel. Doorgaans doen ze dat op basis van een statistische analyse die resulteert in een p-waarde. De p-waarde is een complex concept dat de kans vertegenwoordigt op het vinden van de geobserveerde data en nog extremere – maar niet geobserveerde – data, onder de aanname dat de nulhypothese klopt. De nulhypothese stelt dat de onderzochte interventie geen effect heeft. ‘Binnen de p-waardestatistiek geldt de conventie dat als p kleiner is dan 0,05 de nulhypothese zo onwaarschijnlijk wordt geacht dat hij wordt verworpen,’ aldus Ly. ‘Men spreekt van ‘significante resultaten’ en al gauw leidt dat tot de conclusie dat de onderzochte interventie bewezen effectief is.’

Diffuse gegevens, de onzekere metingen, de vele aannames die onderzoekers doen tijdens de analyse, al die onzekere factoren worden in een statistiekprogramma gestopt en wat daaruit rolt is een glasheldere, harde conclusie: ja, de ingreep is effectief, of nee, de ingreep heeft geen effect. Dikwijls worden dezelfde conclusies een onderzoek later weer even hard onderuitgehaald: nee, de resultaten blijken toch niet te repliceren.

‘Ik bepleit een statistiek die meer recht doet aan de onzekerheid in onderzoek en aan ruis in de data,’ aldus Ly. In zijn proefschrift breekt hij een lans voor Bayesiaanse statistiek, waarin niet één hypothese getoetst wordt, maar twee hypothesen met elkaar worden vergeleken. De hypothese bijvoorbeeld dat cognitieve gedragstherapie geen effect heeft bij depressie, wordt afgezet tegen de hypothese dat cognitieve gedragstherapie wel effect heeft. Als uitkomst krijg je een relatieve uitspraak. Bijvoorbeeld: het is 7 keer zo waarschijnlijk dat cognitieve gedragstherapie effect heeft, dan dat het geen effect heeft. Daarnaast krijg je een indicatie van de grootte van dat effect.  

Sociologische factoren

De Bayesiaanse statistiek schept dus ruimte voor genuanceerder interpretatie van gegevens. Daarnaast maakt de methodiek het mogelijk onderzoeksgegevens te combineren. Wanneer er opnieuw onderzoek wordt gedaan naar de effectiviteit van cognitieve gedragstherapie, kunnen die gegevens eenvoudig worden toegevoegd aan de eerdere studie. Wijzen de nieuwe gegevens in dezelfde richting, dan neemt de waarschijnlijkheid van de effectiviteit van cognitieve gedragstherapie toe. Wijzen de nieuwe gegevens juist een andere kant op, dan neemt de waarschijnlijkheid af dat cognitieve gedragstherapie effectief is.

Ly beschouwt de complexiteit van de Bayesiaanse statistiek als voornaamste reden dat de methode geen gemeengoed is in de onderzoekspraktijk. ‘Deze statistiek vergt veel rekenkracht van software en ook inzicht van de wetenschapper.’ Om die drempel wat te verlagen heeft hij met zijn collega’s de statistiek verwerkt in een gratis, open source computerprogramma, JASP geheten.

Daarnaast belemmeren meer sociologische factoren het omarmen van de nieuwe statistiek. Ly: ‘De statistiek van p-waarden is de norm in kwantitatief onderzoek. Dat is zo gegroeid sinds die statistiek in 1920 werd ontwikkeld. Mensen houden onwetend vast aan die norm. Ook in de opleiding wordt nauwelijks aandacht besteed aan Bayesiaanse statistiek.’ Ly betreurt die praktijk. ‘De absolute, binaire uitspraken die de p-waardestatistiek ons ontlokt, schetst ten onrechte een beeld van wetenschappelijke zekerheden. Wanneer dat beeld in een volgend onderzoek wordt ontkracht, boet de wetenschap in aan betrouwbaarheid. Dat vind ik zonde.’

Promotiedetails

Alexander  Ly: Bayes Factors for Research Workers. Promotor is prof. dr. E.M. Wagenmakers. Copromotor is dr. M. Marsman.

Tijd en locatie

De promotie vindt plaats op vrijdag 19 januari om 13.00 uur. Locatie: Aula van de UvA, Singel 411, Amsterdam.

Gepubliceerd door  UvA Persvoorlichting