A Science augusztusban megjelent
cikke szerint (Open Science
Collaboration, 2015) a pszichológia területén megjelent tanulmányok
eredményeinek alig több, mint egyharmada ismételhető csak meg.
Brian Nosek, a Center for Open Science alapítója és
munkatársai e-maileken és kérdőíveken keresztül toboroztak
vállalkozó szellemű kutatókat a világ eddigi legnagyobb
reprodukálhatósági kísérletéhez. A cikknek összesen 270 szerzője
lett a világ minden tájáról, Magyarországot is beleértve, ahonnan
különböző statisztikai, értékelési és minőségellenőrzési feladatok
elvégzésével én segítettem a projektet. Az összefogás eredményeként
összesen száz korábbi kísérletet ismételtünk meg és elemeztünk újra
három neves pszichológiai folyóirat 2008-as cikkei közül. A
kísérletek tervezése során az eredeti tanulmányok szerzői is
közreműködtek annak érdekében, hogy a kísérletek a lehető legjobban
hasonlítsanak az eredetiekre.
Az alacsony megismételhetőségi arány azt jelenti,
hogy igencsak kételkednünk kell a neves szakmai folyóiratokban
megjelenő eredmények hitelességében. Ugyanis ha egy eredmény nem
ismételhető meg, az két dolgot jelenthet: vagy nem írja le jól a
valóságot (hibás eredmény), vagy nem olyan általános érvényű, mint
azt gondoltuk (vagyis vannak olyan befolyásoló tényezők, amelyekről
még nem tudunk). Természetesen egy sikertelen ismétlő kísérlet még
nem jelenti azt, hogy az eredmény nem megismételhető, hiszen az is
lehetséges, hogy maga az ismétlő kísérlet a hibás, de ilyen mértékű
eltérés sajnos ezzel nem magyarázható. Ráadásul valószínűleg más
tudományterületeken sem sokkal fényesebb a helyzet, tehát a tudomány
egy általános problémájáról van szó (sejtbiológiában 11% és 25%-ra
becsülték a megismételhetőségi arányt: Begley – Ellis, 2012; Prinzet
al., 2011; tumorbiológiában még folynak a kísérletek).
Az alacsony reprodukálhatósági aránynak számos oka
lehet, de mindegyik visszavezethető arra, hogy a jelenlegi
publikálási és tudományfinanszírozási elvek nem egyeztethetők össze
a tudomány alapvető működési elveivel. A tudományos fejlődésnek az
kedvezne a leginkább, ha a kutatási eredményeket maradéktalanul
elérhetővé lehetne tenni mindenki számára, ez azonban nem valósul
meg, mivel a tudományos folyóiratok az előfizetésekért, a kutatók
pedig a kutatóhelyekért és kutatási pénzekért versengenek.
Világszerte egyre több PhD-hallgató van, tehát
egyre többen szeretnének tudományos területen elhelyezkedni. Ennek
következtében egyre nagyobb a versengés a csökkenő számú kutatói
állásokért és a kutatáshoz nélkülözhetetlen pályázati pénzekért. A
kutatók pedig publikációik alapján mérettetnek meg, vagyis minél
több publikációja van egy adott kutatónak, és ezek minél nevesebb
folyóiratokban jelentek meg, annál esélyesebb egy adott állás vagy
pályázat megnyerésére. A folyóiratok– a többi médiához hasonlóan –
előnyben részesítik a meglepő, érdekes állításokat megfogalmazó
cikkeket, amelyek állításaikat statisztikai tesztekkel is alá tudják
támasztani. Statisztikailag nem szignifikáns eredményekkel ma már
szinte senkinek nem jut eszébe cikket leadni egy neves kiadványhoz.
Ez az úgynevezett publikációs torzítás: a kevésbé
érdekes vagy kevésbé egyértelmű (statisztikailag nem szignifikáns,
egymásnak ellentmondó) eredményeket közlő cikkeknek kevesebb az
esélyük, hogy valahol publikálják őket. Egyrészt a kutatók be sem
küldik ezeket, másrészt a folyóiratok szerkesztői visszadobják, mert
nem növelnék az eladott példányszámot. Ezzel szemben a tudománynak
az tenne a legjobbat, ha a publikáció csak a tanulmányok módszertani
minőségétől függene.
Mivel ez nem így van, a kutatók megpróbálnak minél
több cikket publikálni, minél nevesebb folyóiratokban, minél
szenzációsabb eredményekről. Nagyon fontos a cikkek szép történeti
íve, a jó sztori ahhoz, hogy leközölhetők legyenek. Ezért egy
bizonytalan sejtésből induló, sokféle módszert és statisztikát
bevető kísérletet érdemesebb úgy tálalni, hogy abból csak az érdekes
és statisztikailag szignifikáns eredményeket emeljük ki. Mindezt
úgy, mintha pontosan tudtuk volna már az elején, hogy mit és hogyan
fogunk bizonyítani. Ez az elsőfajú hiba valószínűségének
növekedéséhez vezet.
Az elsőfajú hiba annak a valószínűsége, hogy egy
statisztikai teszt fals pozitív, vagyis hogy kimutat egy
összefüggést ott, ahol a valóságban nincs. Általában az 5% alatti
elsőfajú hibára mondjuk azt, hogy statisztikailag szignifikáns,
vagyis fontos eredményről van szó. Tegyük fel, hogy alá szeretném
támasztani azt az elméletemet, amely szerint a kutyák hasonlítanak a
gazdájukra. Kimegyek egy kutyaiskolába és megkörnyékezem a
vállalkozó kedvű kutyatulajdonosokat és kutyáikat, megmérem a
súlyukat, magasságukat, fejük szélességét és hosszát, fülük, lábuk,
orruk hosszát, feljegyzem a szemük színét, hajuk/szőrük színét és
textúráját. Ezután elkezdem elemezni az adatokat. Összesen tíz
változóm van, mindegyikre csinálhatok egy statisztikai tesztet.
Például megnézhetem: igaz-e, hogy a magasabb gazdiknak a kutyáik is
nagyobb termetűek, igaz-e, hogy a kutyák és tulajdonosaik szemszíne
összefügg és így tovább. Mindegyik tesztre külön-külön 5% az első
fajú hiba valószínűsége, vagyis ha azt az eredményt kapom, hogy a
kutyák és gazdájuk testmagassága korrelál, akkor 5% a valószínűsége,
hogy ez az eredmény nem igaz. Ez a hiba nem a kutató hibája, hanem
egyszerűen abból fakad, hogy nem tudom megmérni a világ összes
kutyáját és gazdiját, pedig
|
|
biztosat csak akkor tudnék állítani. Több tesztre
azonban a hibalehetőség összeadódik: annak a valószínűsége, hogy tíz
tesztből legalább egy fals pozitív, már akár 50% is lehet. Ha a
kiválasztott tíz összefüggésből tegyük fel csak egy lett
statisztikailag szignifikáns, és csak ezt írom le egy cikkben, akkor
nemcsak a többi tesztből származó információtól fosztom meg az
olvasókat, hanem erősen félre is vezetem őket: az olvasók azt fogják
hinni, hogy csak 5% a fals pozitív eredmény valószínűsége, holott az
jóval magasabb. Ha ráadásul egy eredmény sem lett szignifikáns,
akkor nem is fogom megírni a cikket, az adatok az asztalfiókban
(vagyis a számítógépem egy elfelejtett mappájában) landolnak.
Senkinek nem róható fel, hogy nem akarja az idejét
soha nem közölt cikkek megírására pazarolni, azonban az eredmények
szelektív közlése már tulajdonképpen csalásnak minősül. A
statisztikai trükközés egy súlyosabb formája az, mikor a kutatók úgy
válogatnak az adatok közül, hogy szignifikáns eredményeket kapjanak.
Ennek valószínűleg leggyakoribb formája, hogy a kutatók nem döntik
el előre, hogy pontosan hány résztvevője lesz a kísérletüknek, vagy
hogy hány megfigyelést tesznek. Tegyük fel, hogy sorban állnak a
gazdik és kutyáik a méredzkedéshez. Már nagyon sokat megmértem,
tulajdonképpen abba is hagyhatnám, de látom, hogy a következő utáni
páros egy tacskó és alacsony termetű gazdája, ezért hozzácsapom még
a következő két párost a résztvevőkhöz, mert tudom, hogy ők a „jó
irányba” (vagyis az elméletem alátámasztása felé) húzzák majd az
adatokat.
Ha kizárunk minden kutatói tévedést és helytelen
magatartást, akkor sem várható, hogy a reprodukálhatóság 100%
legyen. Egyrészt ott az elsőfajú hiba, vagyis a megismétlendő
eredmények között várhatóan (minden más hibalehetőséget kizárva) 5%
a fals pozitívok aránya, másrészt ez igaz a reprodukált eredményekre
is. A sikertelen ismétlés nem jelenti feltétlenül azt, hogy az
eredeti eredmény fals pozitív volt.
Ennél, főleg pszichológiában, még fontosabb az
eredmények kontextus-függése: lehet, hogy egy eredmény akkor és ott
igaz volt, de egy másik helyen és időben, más résztvevőkkel
elvégezve a kísérletet már nem igaz. Ez egyben azt is jelenti, hogy
nem értjük még pontosan az összefüggést, illetve, hogy az nem olyan
általános, mint ahogy az eredeti tanulmány szerint gondolnánk.
Pszichológiai kísérleteknél olyan apróságok is befolyásolhatják az
eredményeket, mint például a kísérletvezető neme vagy az aktuális
időjárás; ugyanakkor nagy a kísértés, hogy egy-egy kísérletből
általános következtetéseket vonjunk le.
Az alacsony megismételhetőségi eredmények
rámutatnak arra, hogy fokozottabban kellene hangsúlyozni az ismétlő
kísérletek fontosságát a fantasztikus felfedezések mellett, hiszen a
tudományos haladáshoz mindkettő szükséges. Emellett jobban oda kéne
figyelni a folyóiratokban megjelenő tanulmányok
minőségbiztosítására. Vannak kezdeményezések, amik éppen ezt
próbálják elősegíteni.
A Center for Open Science új irányelveket
fogalmazott meg, melyekhez már számos intézmény és tudományos
folyóirat csatlakozott (TOP Guidelines). Ezek előírják a kutatóknak
a kísérletek előregisztrációját, vagyis pontosan rögzíteni kell egy
nyilvános adatbázisban, hogy mit és hogyan szeretnének vizsgálni.
Ezek után az adatokat és az azokat elemző algoritmusokat bárki
számára szabadon hozzáférhetővé kell tenni, hogy azok könnyebben
ellenőrizhetők legyenek. A kutatók helyesebb praktikákra ösztönzése
mellett azonban szükség lenne a publikációs motiváció
megváltoztatására is. Lehetővé kell tenni a feltáró jellegű
analízisek, a nem szignifikáns eredmények és az ismétlő kísérletek
eredményeinek közlését is. Ezt a problémát valószínűleg az
internetes, szabadon hozzáférhető folyóiratok térnyerése részben
megoldja, mert ezeknél nem kerül pénzbe az oldalszám, vagyis
megengedhetik maguknak, hogy kevésbé szenzációs cikkeket is
leközöljenek. Emellett a tudománytámogatási elveknek is változniuk
kellene, hogy emelkedjen ezeknek a publikációknak a presztízse.
Eredményeinket nem kell a tudomány bukásaként
felfognunk, hiszen maga a projekt a tudomány önkorrekciójának a
bizonyítéka, emellett azt is mutatja, hogy a kutatók rávehetők arra,
hogy közösen dolgozzanak a tudomány jobbá tételén. A tudományos
haladás nem más, mint a bizonytalanság csökkenése a tudni vélt
összefüggésekkel kapcsolatban. Az eredmények arra figyelmeztetnek,
hogy egy kísérlet vagy megfigyelés eredményeiből levont
következtetések még nagyon bizonytalanok, és több bizonyítékot kell
összegyűjtenünk ahhoz, hogy biztosabbak lehessünk abban, amiről azt
hisszük, hogy tudjuk.
Kulcsszavak: reprodukálhatóság, megismételhetőség, pszichológia
IRODALOM
Begley, C. Glenn – Ellis, Lee M. (2012):
Drug Development: Raise Standards for Preclinical Cancer Research.
Nature. 483, 531–533, DOI: 10.1038/483531a •
WEBCÍM
Open Science Collaboration (2015):
Estimating the Reproducibility of Psychological Science. Science.
349, 6251, DOI: 10.1126/science.aac4716
Prinz, Forian – Schlange, T. – Asadullah,
K. (2011): Believe It Or Not: How Much Can We Rely on Published Data
on Potential Drug Targets? Nature Reviews on Drug Discovery. 10,
712–713. DOI: 10.1038/nrd3439-c1
|
|