Magyar Tudomány • 2015 11 • Fedor Anna

A Science augusztusban megjelent cikke szerint (Open Science Collaboration, 2015) a pszichológia területén megjelent tanulmányok eredményeinek alig több, mint egyharmada ismételhető csak meg.

Brian Nosek, a Center for Open Science alapítója és munkatársai e-maileken és kérdőíveken keresztül toboroztak vállalkozó szellemű kutatókat a világ eddigi legnagyobb reprodukálhatósági kísérletéhez. A cikknek összesen 270 szerzője lett a világ minden tájáról, Magyarországot is beleértve, ahonnan különböző statisztikai, értékelési és minőségellenőrzési feladatok elvégzésével én segítettem a projektet. Az összefogás eredményeként összesen száz korábbi kísérletet ismételtünk meg és elemeztünk újra három neves pszichológiai folyóirat 2008-as cikkei közül. A kísérletek tervezése során az eredeti tanulmányok szerzői is közreműködtek annak érdekében, hogy a kísérletek a lehető legjobban hasonlítsanak az eredetiekre.

Az alacsony megismételhetőségi arány azt jelenti, hogy igencsak kételkednünk kell a neves szakmai folyóiratokban megjelenő eredmények hitelességében. Ugyanis ha egy eredmény nem ismételhető meg, az két dolgot jelenthet: vagy nem írja le jól a valóságot (hibás eredmény), vagy nem olyan általános érvényű, mint azt gondoltuk (vagyis vannak olyan befolyásoló tényezők, amelyekről még nem tudunk). Természetesen egy sikertelen ismétlő kísérlet még nem jelenti azt, hogy az eredmény nem megismételhető, hiszen az is lehetséges, hogy maga az ismétlő kísérlet a hibás, de ilyen mértékű eltérés sajnos ezzel nem magyarázható. Ráadásul valószínűleg más tudományterületeken sem sokkal fényesebb a helyzet, tehát a tudomány egy általános problémájáról van szó (sejtbiológiában 11% és 25%-ra becsülték a megismételhetőségi arányt: Begley – Ellis, 2012; Prinzet al., 2011; tumorbiológiában még folynak a kísérletek).

Az alacsony reprodukálhatósági aránynak számos oka lehet, de mindegyik visszavezethető arra, hogy a jelenlegi publikálási és tudományfinanszírozási elvek nem egyeztethetők össze a tudomány alapvető működési elveivel. A tudományos fejlődésnek az kedvezne a leginkább, ha a kutatási eredményeket maradéktalanul elérhetővé lehetne tenni mindenki számára, ez azonban nem valósul meg, mivel a tudományos folyóiratok az előfizetésekért, a kutatók pedig a kutatóhelyekért és kutatási pénzekért versengenek.

Világszerte egyre több PhD-hallgató van, tehát egyre többen szeretnének tudományos területen elhelyezkedni. Ennek következtében egyre nagyobb a versengés a csökkenő számú kutatói állásokért és a kutatáshoz nélkülözhetetlen pályázati pénzekért. A kutatók pedig publikációik alapján mérettetnek meg, vagyis minél több publikációja van egy adott kutatónak, és ezek minél nevesebb folyóiratokban jelentek meg, annál esélyesebb egy adott állás vagy pályázat megnyerésére. A folyóiratok– a többi médiához hasonlóan – előnyben részesítik a meglepő, érdekes állításokat megfogalmazó cikkeket, amelyek állításaikat statisztikai tesztekkel is alá tudják támasztani. Statisztikailag nem szignifikáns eredményekkel ma már szinte senkinek nem jut eszébe cikket leadni egy neves kiadványhoz.

Ez az úgynevezett publikációs torzítás: a kevésbé érdekes vagy kevésbé egyértelmű (statisztikailag nem szignifikáns, egymásnak ellentmondó) eredményeket közlő cikkeknek kevesebb az esélyük, hogy valahol publikálják őket. Egyrészt a kutatók be sem küldik ezeket, másrészt a folyóiratok szerkesztői visszadobják, mert nem növelnék az eladott példányszámot. Ezzel szemben a tudománynak az tenne a legjobbat, ha a publikáció csak a tanulmányok módszertani minőségétől függene.

Mivel ez nem így van, a kutatók megpróbálnak minél több cikket publikálni, minél nevesebb folyóiratokban, minél szenzációsabb eredményekről. Nagyon fontos a cikkek szép történeti íve, a jó sztori ahhoz, hogy leközölhetők legyenek. Ezért egy bizonytalan sejtésből induló, sokféle módszert és statisztikát bevető kísérletet érdemesebb úgy tálalni, hogy abból csak az érdekes és statisztikailag szignifikáns eredményeket emeljük ki. Mindezt úgy, mintha pontosan tudtuk volna már az elején, hogy mit és hogyan fogunk bizonyítani. Ez az elsőfajú hiba valószínűségének növekedéséhez vezet.

Az elsőfajú hiba annak a valószínűsége, hogy egy statisztikai teszt fals pozitív, vagyis hogy kimutat egy összefüggést ott, ahol a valóságban nincs. Általában az 5% alatti elsőfajú hibára mondjuk azt, hogy statisztikailag szignifikáns, vagyis fontos eredményről van szó. Tegyük fel, hogy alá szeretném támasztani azt az elméletemet, amely szerint a kutyák hasonlítanak a gazdájukra. Kimegyek egy kutyaiskolába és megkörnyékezem a vállalkozó kedvű kutyatulajdonosokat és kutyáikat, megmérem a súlyukat, magasságukat, fejük szélességét és hosszát, fülük, lábuk, orruk hosszát, feljegyzem a szemük színét, hajuk/szőrük színét és textúráját. Ezután elkezdem elemezni az adatokat. Összesen tíz változóm van, mindegyikre csinálhatok egy statisztikai tesztet. Például megnézhetem: igaz-e, hogy a magasabb gazdiknak a kutyáik is nagyobb termetűek, igaz-e, hogy a kutyák és tulajdonosaik szemszíne összefügg és így tovább. Mindegyik tesztre külön-külön 5% az első fajú hiba valószínűsége, vagyis ha azt az eredményt kapom, hogy a kutyák és gazdájuk testmagassága korrelál, akkor 5% a valószínűsége, hogy ez az eredmény nem igaz. Ez a hiba nem a kutató hibája, hanem egyszerűen abból fakad, hogy nem tudom megmérni a világ összes kutyáját és gazdiját, pedig

biztosat csak akkor tudnék állítani. Több tesztre azonban a hibalehetőség összeadódik: annak a valószínűsége, hogy tíz tesztből legalább egy fals pozitív, már akár 50% is lehet. Ha a kiválasztott tíz összefüggésből tegyük fel csak egy lett statisztikailag szignifikáns, és csak ezt írom le egy cikkben, akkor nemcsak a többi tesztből származó információtól fosztom meg az olvasókat, hanem erősen félre is vezetem őket: az olvasók azt fogják hinni, hogy csak 5% a fals pozitív eredmény valószínűsége, holott az jóval magasabb. Ha ráadásul egy eredmény sem lett szignifikáns, akkor nem is fogom megírni a cikket, az adatok az asztalfiókban (vagyis a számítógépem egy elfelejtett mappájában) landolnak.

Senkinek nem róható fel, hogy nem akarja az idejét soha nem közölt cikkek megírására pazarolni, azonban az eredmények szelektív közlése már tulajdonképpen csalásnak minősül. A statisztikai trükközés egy súlyosabb formája az, mikor a kutatók úgy válogatnak az adatok közül, hogy szignifikáns eredményeket kapjanak. Ennek valószínűleg leggyakoribb formája, hogy a kutatók nem döntik el előre, hogy pontosan hány résztvevője lesz a kísérletüknek, vagy hogy hány megfigyelést tesznek. Tegyük fel, hogy sorban állnak a gazdik és kutyáik a méredzkedéshez. Már nagyon sokat megmértem, tulajdonképpen abba is hagyhatnám, de látom, hogy a következő utáni páros egy tacskó és alacsony termetű gazdája, ezért hozzácsapom még a következő két párost a résztvevőkhöz, mert tudom, hogy ők a „jó irányba” (vagyis az elméletem alátámasztása felé) húzzák majd az adatokat.

Ha kizárunk minden kutatói tévedést és helytelen magatartást, akkor sem várható, hogy a reprodukálhatóság 100% legyen. Egyrészt ott az elsőfajú hiba, vagyis a megismétlendő eredmények között várhatóan (minden más hibalehetőséget kizárva) 5% a fals pozitívok aránya, másrészt ez igaz a reprodukált eredményekre is. A sikertelen ismétlés nem jelenti feltétlenül azt, hogy az eredeti eredmény fals pozitív volt.

Ennél, főleg pszichológiában, még fontosabb az eredmények kontextus-függése: lehet, hogy egy eredmény akkor és ott igaz volt, de egy másik helyen és időben, más résztvevőkkel elvégezve a kísérletet már nem igaz. Ez egyben azt is jelenti, hogy nem értjük még pontosan az összefüggést, illetve, hogy az nem olyan általános, mint ahogy az eredeti tanulmány szerint gondolnánk. Pszichológiai kísérleteknél olyan apróságok is befolyásolhatják az eredményeket, mint például a kísérletvezető neme vagy az aktuális időjárás; ugyanakkor nagy a kísértés, hogy egy-egy kísérletből általános következtetéseket vonjunk le.

Az alacsony megismételhetőségi eredmények rámutatnak arra, hogy fokozottabban kellene hangsúlyozni az ismétlő kísérletek fontosságát a fantasztikus felfedezések mellett, hiszen a tudományos haladáshoz mindkettő szükséges. Emellett jobban oda kéne figyelni a folyóiratokban megjelenő tanulmányok minőségbiztosítására. Vannak kezdeményezések, amik éppen ezt próbálják elősegíteni.

A Center for Open Science új irányelveket fogalmazott meg, melyekhez már számos intézmény és tudományos folyóirat csatlakozott (TOP Guidelines). Ezek előírják a kutatóknak a kísérletek előregisztrációját, vagyis pontosan rögzíteni kell egy nyilvános adatbázisban, hogy mit és hogyan szeretnének vizsgálni. Ezek után az adatokat és az azokat elemző algoritmusokat bárki számára szabadon hozzáférhetővé kell tenni, hogy azok könnyebben ellenőrizhetők legyenek. A kutatók helyesebb praktikákra ösztönzése mellett azonban szükség lenne a publikációs motiváció megváltoztatására is. Lehetővé kell tenni a feltáró jellegű analízisek, a nem szignifikáns eredmények és az ismétlő kísérletek eredményeinek közlését is. Ezt a problémát valószínűleg az internetes, szabadon hozzáférhető folyóiratok térnyerése részben megoldja, mert ezeknél nem kerül pénzbe az oldalszám, vagyis megengedhetik maguknak, hogy kevésbé szenzációs cikkeket is leközöljenek. Emellett a tudománytámogatási elveknek is változniuk kellene, hogy emelkedjen ezeknek a publikációknak a presztízse.

Eredményeinket nem kell a tudomány bukásaként felfognunk, hiszen maga a projekt a tudomány önkorrekciójának a bizonyítéka, emellett azt is mutatja, hogy a kutatók rávehetők arra, hogy közösen dolgozzanak a tudomány jobbá tételén. A tudományos haladás nem más, mint a bizonytalanság csökkenése a tudni vélt összefüggésekkel kapcsolatban. Az eredmények arra figyelmeztetnek, hogy egy kísérlet vagy megfigyelés eredményeiből levont következtetések még nagyon bizonytalanok, és több bizonyítékot kell összegyűjtenünk ahhoz, hogy biztosabbak lehessünk abban, amiről azt hisszük, hogy tudjuk.

Kulcsszavak: reprodukálhatóság, megismételhetőség, pszichológia

IRODALOM

Begley, C. Glenn – Ellis, Lee M. (2012): Drug Development: Raise Standards for Preclinical Cancer Research. Nature. 483, 531–533, DOI: 10.1038/483531a • WEBCÍM

Open Science Collaboration (2015): Estimating the Reproducibility of Psychological Science. Science. 349, 6251, DOI: 10.1126/science.aac4716

Prinz, Forian – Schlange, T. – Asadullah, K. (2011): Believe It Or Not: How Much Can We Rely on Published Data on Potential Drug Targets? Nature Reviews on Drug Discovery. 10, 712–713. DOI: 10.1038/nrd3439-c1