Tesztelési eljárások, szignifikanciaszintek
Az elemzés módszereit ért bírálatok második csoportja a tesztek és a
statisztikai szignifikancia témáját érintik. Kabai Péter állítása
szerint 10%-os szignifikanciaszintet fogadunk el, amit túl gyengének
vél. Felrója, hogy nagyszámú eredményváltozóra külön-külön végezzük el
a program – kontroll összehasonlítást Bonferroni-típusú korrekció
alkalmazása nélkül. Kifogásolja emellett azt is, hogy a tanulók
összességére és különböző csoportjaikra is megvizsgáljuk a program –
kontroll különbségeket, s ezek során a csoportképző ismérvek nem
függetlenek egymástól.
Az ezekre a kritikákra vonatkozó rövid válaszunk
az, hogy módszereink teljes mértékben követték a társadalompolitikai
programok hatásvizsgálatának nemzetközi irodalmában szokásos elemezési
eljárásokat. Nem választottunk magunk számára szignifikanciaszintet,
hanem megjelöltük, mely eltérések szignifikánsak 10,
5, illetve 1%-on, s az olvasóra bíztuk, hogy a 10%-on szignifikáns
eredményeket elfogadja-e. Ugyanígy bevett gyakorlat az is az
irodalomban, hogy a hatást nemcsak összességében, hanem különböző
csoportokra külön is megvizsgálják, s ezek a csoportok sokszor átfedik
egymást. Ugyancsak standard a hatást eredményváltozónként külön is
tesztelni, Bonferroni-típusú korrekciók nélkül.6
Kabai Péter felvetése alapján úgy tűnik tehát, ezek a standardok
eltérnek a természettudományos kutatások gyakorlatától (bár azokat
teljes mértékben nem ismerjük, hiszen nem vagyunk természettudósok, és
nem is véleményezzük természettudományos kutatási eredményeit).
E tekintetben Kabai Péter érdemének tudható be,
hogy e szakmai vita keretében rávilágít egy olyan, tágabb kutatási
kontextust is érintő kérdésre, mely túlmutatva kutatásunk
megfelelőségének boncolgatásán, távolabbra is kitekint, és felveti a
kérdést, hogy mi állhat az eltérő tudományterületek eltérő
gyakorlatának hátterében. Véleményünk szerint a magyarázat a
tudományterületek eltérő kérdésfeltevésében és eredményeik eltérő
felhasználási területében rejlik. A hatásvizsgálatok, amint már
részletesen szóltunk róla, általában nem a laboratóriumi kísérletek
precizitásával megtervezett adatokkal operálnak, hanem sokszor külső
tényező által meghatározott információhalmazra épülnek. E vizsgálatok
ugyanakkor a politikai döntéshozatal közvetlen támogatói, s a
következtetéseket egy-egy kormányzati intervenció sikerességére,
társadalmi megtérülésére, fenntartható működtetésére vonatkozóan kell
levonniuk. E tekintetben tehát eszközrendszerük és alkalmazásuk
gyakorlata is jelentősen eltér a természettudományok – és sok
társadalomtudományi alapkutatás – eszközrendszerétől is.
A Kabai Péter által javasolt Bonferroni-korrekció
lényege például az, hogy abban az esetben, ha több hipotézist
tesztelünk egyenként, akkor az alkalmazandó szignifikancia szintet a
hipotézisek számával arányosan szigorítsuk. A szignifikancia szintek
szigorításával az ún. elsőfajú hiba bekövetkezési valószínűségét
csökkentjük (vagyis annak valószínűségét, hogy úgy mondjuk ki a
program hatását, hogy az a valóságban nem létezik). Ezzel együtt
azonban a másodfajú hiba növeljük valószinűségét. Csökken tehát a
teszt ereje, vagyis nő annak a valószínűsége, hogy bár az intervenció
képes pozitív változások elindítására, a kutatás mégis azt a
következtetést vonja le, hogy a programnak nincs a társadalom számára
érezhető eredménye. A szignifikancia szint megválasztása így nem
„módszertani precizitás” kérdése, hanem a kétféle hibázási lehetőség
közötti mérlegelés eredménye, aminek státusa a program
hatásvizsgálatokban jelentősen eltérhet a természettudományokban
megszokottól. A Fisher-Neyman-Pearson-féle tradícióban az elsőfajú
hiba elkerülése valóban elsőbbséget élvez: inkább fogadjuk el gyakran
a nullhipotézist még ha az nem is igaz, minthogy 5 (vagy 1) %-nál
gyakrabban utasítsuk el a nullhipotézist, ha az igaz. Kormányzati
beavatkozások hatásvizsgálatai során azonban ez azt jelentené, hogy
inkább döntsünk úgy, hogy nincs hatás, miközben van, minthogy az
elhanyagolhatónál nagyobb valószínűséggel tulajdonítsunk hatást egy
olyan programnak, aminek nincsen hatása. Abban az esetben viszont, ha
az intervenció nem valami teljesen új dolgot vezet be, hanem egy már
alkalmazott gyakorlattal szemben kínál alternatívát, mint a mi
esetünkben is, komoly érvek szólnak a kétféle hibázási lehetőség
egyenrangúsága mellett, hiszen a tévesen megítélt „nincs hatás”
komoly, társadalmi szempontból is jelentős törekvések leállítását
eredményezheti. Úgy véljük, ezek az érvek alapot szolgáltatnak a
program hatásvizsgálatokban használt eljárásokhoz, de nyilvánvaló,
hogy a diszciplínák közötti mély módszertani különbségek megértésére
alaposabb viták szükségesek.
Kabai Péter mindezek után megjegyzi, hogy a
vizsgált program-kontroll különbségekben „a szignifikanciaszint
negyvennyolc esetben nem érte el a 10%-ot”, amit aggasztónak ítél.
Ezzel szemben bármilyen részhalmazát nézzük is az eredményváltozóknak,
az ilyen szinten szignifikáns különbségek száma mindig magasabb a nem
szignifikáns különbségek számánál. Mindamellett Kabai Péter a nem
szignifikáns kapcsolatokkal kapcsolatban is megjegyzi, hogy azok
túlnyomó többsége pozitív, ami „nem lehet véletlen, a nem szignifikáns
különbségek is tendenciára utalnak.” Ez az intuíció megegyezik azzal,
ahogyan mi értékeljük az eredményeket. Az eredmények tartalmát tehát,
úgy tűnik, végül is nem érintik a statisztikai módszerekről
megfogalmazott kritikák.
Az eredmények
és a belőlük levonható következtetések
Eredményeink alapján megállapítottuk, hogy a programiskolákban folyó
integrált oktatás csökkenti a nem roma tanulók romákkal szembeni
távolságtartását. A programiskolákban a tanulók olvasáskészsége és
továbbtanulási esélyei is jobbak kismértékben, akár a roma, akár a nem
roma, akár a hátrányos helyzetű, akár a nem hátrányos helyzetű
tanulókat tekintjük. Mindezek mellett úgy tűnik, hogy a programnak
jelentős pozitív hatása van valamennyi tanuló önértékelésére, a
sorsirányítás képességébe vetett hitére, valamint a nehéz helyzetekkel
való megküzdési készségére; ami azért kiemelkedő eredmény, mert ez
utóbbi készségek jelentősége a munkaerőpiacon és az élet más
területein is a kognitív készségekhez és kompetenciákhoz mérhető. A
különböző családi hátterű tanulókra gyakorolt hatás mértéke és
megnyilvánulási formája is sokszor különböző, de hangsúlyoznunk kell,
hogy egyáltalán nem találtunk olyan fejlődési területet, ahol a
megfelelő pedagógiai módszerekkel támogatott integrált nevelési
környezet negatív hatással lett volna a gyerekek bármely csoportjára
nézve is, sőt, a gyerekek minden (etnikai hovatartozás és családi
háttér) szerinti csoportja vonatkozásában található olyan fejlődési
terület, melyet a megváltozott oktatási/nevelési környezet pozitívan
befolyásolt.
A mért hatások Kabai Péter szerint „nem tűnnek
jelentősnek”, részben ezért nem tartja indokoltnak a kutatási jelentés
címében szereplő „sikeres program” jelzős szerkezetet (Kézdi és
Surányi, 2008a). Ám a hatásnagyságok megítélése során olyan
szempontokat is érdemes figyelembe venni, amivel Kabai Péter úgy
véljük, nem számolt. Az első az, hogy a társadalmi integrációt célzó
oktatási programok sikerességét a probléma orvosolásának alternatív
formáihoz érdemes viszonyítani. Ebből a szempontból hasznos lehet az
összehasonlítás azon programok hatásával, amelyek felnőttkorban
próbálják a hosszútávú munkanélkülieket munkához juttatni. Hudomiet és
Kézdi (2008) az úgynevezett aktív munkaerőpiaci programokkal
kapcsolatban (képzési programok, foglalkoztatástámogatási programok,
közcélú foglalkoztatás, aktív segítség a munkakeresésben) bemutatja,
hogy a „módszertani szempontból megbízható vizsgálatok az esetek nagy
részében elhanyagolható vagy legfeljebb kismértékű hatást mutatnak”.
Az általunk vizsgálat oktatási program ezek viszonylatában a sikeres
intervenciók körébe sorolható. A gyermekkorban történő beavatkozások
nagyobb eredményessége egyébként nem meglepő eredmény az irodalomban.
Számos nemzetközi kutatás bizonyítja mára azt, hogy a társadalmi
integráció elősegítése és a hosszútávú életesélyek javítása céljaira
az oktatáspolitikai beavatkozások hatásosabbak, mint a felnőttkorra
irányuló programok (Heckman, 2006).
A másik figyelembe veendő szempont az, hogy az
oktatási befektetések kumulatív hatása miatt a gyermekkorban történő
kis elmozdulások is komoly, hosszú távon érvényesülő társadalmi
hasznokkal járhatnak (Heckman és Masterov, 2007, valamint Surányi és
Danis, 2010), különösen, ha egyszerre több dimenzióban történik az
elmozdulás, amelyek egymást erősíthetik.
A legfontosabb érv azonban arra, hogy az
eredményeket az integrált oktatás szempontjából sikeresnek – de
legalábbis biztatónak – tekintsük, az a tény, hogy a vizsgált
társadalmi csoportok egyikében sem tapasztaltunk negatív eredményeket,
sőt, minden csoport átlagos eredményeire pozitív hatással volt a
programiskolákban folyó integrált oktatás. Ez azért jelentős
felismerés, mert alapvető intuíciónk mellett számos eredmény is azt
sugallja, hogy az integrált oktatásnak lehetnek vesztesei (a nem
hátrányos helyzetűek). Meghir és Palme (2005) például kimutatják, hogy
a svéd alsó középiskolai rendszer egységesítése és ezáltal
integráltabbá tétele az 50-es években jelentősen megnövelte az
intergenerációs mobilitást oly módon, hogy segítette a hátrányos
helyzetű tanulókat a nem hátrányos helyzetűek rovására. Hasonló
eredményeket talál Pekkarinen et al (2009) Finnországra.
Ezen megfontolások miatt értékeljük jelentős
eredményként azt, hogy a program iskolákban folyó integrált oktatásnak
úgy tűnik, nem voltak vesztesei. Ez a különbség a programiskolákban
nagyobb teret nyert pedagógiai módszerek szükségességét és egyben
hatékonyságát mutatja. Az svéd és finn beavatkozások ugyanis nem
jártak együtt az általunk vizsgált programban alkalmazott pedagógiai
szemlélet azonnali elterjedésével. Mindez arra enged következtetni,
hogy kutatásunkban nem egyszerűen „az integráció” hatásáról van szó,
hanem mindazon a pedagógiai, oktatásszervezési és hozzáállásbeli
különbségek hatásáról, amelyek az integrált környezettel
kölcsönhatásban a programiskolákat mássá tették.
Az eredmények pozitív értékelését
árnyalja az a tény, hogy a programiskolák előnye több
eredményváltozónál leginkább akkor mutatható ki, ha a roma tanulók
aránya nem haladja meg a 20-30 (olykor 40) %-ot. E következtetés az
adatok korlátai miatt igen spekulatív, ezért robusztusságát és
lehetséges okait hatásvizsgálatunk nyitva hagyta további kutatások
számára.7
Záró gondolatok
Ebben a tanulmányban a hatásvizsgálat mintavételét és elemzési
módszereit ért kritikákkal foglalkoztunk. Megmutattuk, hogy a kritikák
megalapozatlanok, és ismételten hangsúlyoztuk, hogy eredményeink
hogyan interpretálhatóak az OOIH program hatása szempontjából és az
integrált és egyszersmind minőségi oktatás szempontjából. A
nem-kognitív készségeket mérő eszközök kidolgozására irányuló
bírálatokra külön cikkünk válaszol – kimutatva azok
megalapozatlanságát.
Tisztában vagyunk a felelősséggel, amit a
hatásvizsgálat módszertani követelményei és a levonható
következtetések körültekintő mérlegelése ruház ránk. Úgy érezzük
ugyanakkor, hogy Kabai Péter nem vetett számot azzal a felelősséggel,
amely a sok esetben nem megfelelően megalapozott kritikáinak
társadalmi hatásaival jár. Az alaptalan, nem megfelelő
körültekintéssel megírt kritikák nemcsak a kutatásnak és magának a
programnak a megtervezésében és kivitelezésében résztvevők számára
sértőek, hanem negatív hatással vannak az akadémiai kutatások
általános megítélésére éppúgy, mint esetünkben maguknak az etnikai
integrációs törekvéseknek a társadalmi fogadtatására is.
IRODALOM
Angrist, J., Lavy, V. (1999). Using
Maimonedes' Rule to Estimate the Effect of Class Size on Scholastic
Achieve-ment. Quarterly Journal of Economics 114(2), 533-575.
Blundell, R., Costa Dias, M., Meghir, C.,
Van Reenen, J. (2004). Evaluating the employment impact of a mandatory
job serach program. Journal of the European Economic Association 2(4),
569-606.
Deaton, A. (2009). Instruments of
development: Randomization in the tropics, and the search for the
elusive keys to economic development. The Keynes Lecture, British
Academy, October 9th, 2008.
WEBCÍM >
de Janvry, A., Finan, F., Sadoulet, E.,
Vakis, R. (2006). Can conditional cash transfer programs serve as
safety nets in keeping children at school and from working when
exposed to shocks? Journal of Development Economics 79(2), 349-373.
Gertler, P. (2000). The impact of PROGRESA
on health. International Food Policy Research Institute (IFPRI)
Research Report.
WEBCÍM >
Heckman, James J. (2006), “Skill Formation
and the Economics of Investing in Disadvantaged Children” Science, 312
(June 30), pp. 1900-1902.
Heckman, J. J., Masterov, D. V. (2007).
The Productivity Argument for Investing in Young Children. NBER
Working Paper No. 13016.
Hudomiet, P., Kézdi, G. (2008). Az aktív
munkaerő-piaci programok nemzetközi tapasztalatai. Kormányzás 3(1)
3-37.
WEBCÍM >
Imbens, G. W., Wooldridge, J. M. (2009).
Recent Developments in the Econometrics of Program Evaluation. Journal
of Economic Literature 47(1) 5–86.
Kézdi – Surányi. (2008a). Egy sikeres
iskolai integrációs program tapasztalatai. Kutatási összefoglaló.
Educatio Kht., Budapest
WEBCÍM >
Kézdi – Surányi. (2008b). Egy integrációs
program hatása a tanulók fejlődésére. Educatio. 2008/IV.
WEBCÍM >
Meghir, C., Palme, J. (2005). Educational
Reform, Ability, and Family Background. The American Economic Review
95(1), 414-424.
National Evaluation of Sure Start Research
Team (2008). The Impact of Sure Start Local Programmes on Three Year
Olds and Their Families.
WEBCÍM >
Németh, Sz., Papp Z. A. (2006). És mi
adjuk az integráció vezérfonalát… Dokumentumelemzés és a kvalitatív
vizsgálat eredményei című tanulmánya. In: Németh Szilvia (szerk.):
Integráció a gyakorlatban. A roma tanulók együttnevelésének iskolai
modelljei. Országos Közoktatási Intézet, Budapest.
Pekkarinen, T., Uusitalo, R., Kerr, S.
(2009). School tracking and intergenerational income mobility:
Evidence from the Finnish comprehensive school reform. Journal of
Public Economics (93), 965-973.
Rosenbaum, P. R., Rubin, D. (1983). The
central role of the propensity score in observational studies for
causal effects. Biometrika 70(1), 41-55.
Skoufias, E. (2005). PROGRESA and its
impacts on the welfare of rural households in Mexico. International
Food Policy Research Institute (IFPRI) Research Report 139.
WEBCÍM >
LÁBJEGYZETEK
1 Kabai Péter egyik
kritikai megjegyzése a referált folyóiratok és a “peer review”
fontosságáról szól, és felrója nekünk, hogy kutatásunk eredményeit nem
ilyen módon publikáltuk. Elveivel teljes mértékben egyetérünk, és
törekszünk arra, hogy legfontosabb kutatási eredményeinket színvonalas
referált nemzetközi folyóratokban jelentessük meg. A társadalmi
programokon elvégzett hatásvizsgálatok eredményeinek publikálása
azonban sajátos utat követ: a kutatási beszámolók nem folyóiratokban
jelennek meg, referált cikkek csak később születnek. A talán
legismertebb hatásvizsgálat, a mexikói PROGRESA eredményeit is először
kutatási beszámolók formájában publikálták (Gertler, 2000; vagy a
számos műhelytanulmány eredményeire épülő összefoglalót, Skoufias,
2005), és csak később jelentek meg eredmények tudományos
folyóiratokban (például de Janvry et al, 2006). Az okok között a
terjedelmi szempontok mellett a társadalomtudományokban – különösen a
közgazdaságtudományban – rendkívül lassú publikálási folyamat is
szerepet játszik. Hatásvizsgálatunkkal mi is a nemzetközileg bevett
utat tervezzük járni.
<
2 A legismertebb példák a
PROGRESA mellett a J-PAL program terep-kísérletei az M.I.T. egyetemen:
http://www.povertyactionlab.org/about-j-pal. Praktikus okok miatt
azonban többen vitatják a randomizált kísérletek felsőbbrendűségét a
társadalompolitika megalapozásában – elismerve nyilvánvaló tudományos
tisztaságukat ideális körülmények között –, lásd például Angus Deaton
előadását (Deaton, 2009).
<
3 Kabai Péter nem kívánt
megjegyzést fűzni e fejezethez sem, mondván: itt csak leíró
statisztikát közlünk. Elkerülhette a figyelmét, hogy a bemutatott
eredmények mögött diff-in-diffs jellegű modellek állnak, amelyek azt
vizsgálják, hogy a program-kontroll különbségek (a becsült hatás)
mennyiben függ össze a programiskolák közötti különbségekkel egyes
köztes oktatási változókban (pl. tanulói autonómia). Talán az explicit
teszteket hiányolta: ebben a fejezetben csak becslési eredmények
vannak, grafikus formában is ábrázolva, szignifikanciaszintek nélkül.
Az ok egyszerű: a teszteket a kettőnél több kategóriát összehasonlító
modellekben a referenciacsoport meghatározásával lehet elvégezni, ami
tovább bonyolította volna az eredmények közlését. A nagymértékű
különbségek – mint például a tanulói autonómia vagy a személyközpontú
pedagógia esetében – természetesen statisztikailag mindig
szignifikánsak 5%-on.
<
4 Ezt kontroll függvény
módszernek is hívják a hatásvizsgálat irodalomban. A kontrollváltozók
nemcsak additívan, de a program dummyval interaktálva is szerepelnek a
jól specifikált kontroll függvényben, lásd például Imbens és
Wooldridge (2009) – a mieinkben is így szerepeltek.
<
5 Ezeket a teszteket, a
később mért olvasáskészség tesztekkel együtt, Csapó Benő szegedi
kutatócsoportja dolgozta ki és bocsátotta rendelkezésünkre.
<
6 Lásd például Blundell et
al. (2004), Skoufias (2005), National Evaluation of Sure Start (2008).
<
7 Az elemzés a kutatási
jelentés (Kézdi és Surányi, 2008a) 9. fejezetében találhatók.
Hasonlóan a program hatásmechanismusaival foglalkozó 8. fejezethez,
itt is hangsúlyozzuk az eredmények bizonytalanságát, és ezért itt sem
közlünk standard hibákat. Az egyik fontos korlátja az elemzésnek, hogy
kvadratikus függvényformát illeszt az osztály összetétele és az
eredményváltozók kapcsolatára, ami nyilvánvalóan óvatosságra int. A
69. lábjegyzetben erre külön fel is hívjuk a figyelmet: “Minthogy
évfolyamonként bázis/kontroll bontásban mindenütt 40-50 esetszámról
van szó, a nemlinearitásokat nem lehet megbízhatóan becsülni, ezért
messzemenő következtetéteseket belőlük levonni nem szabad.” Kabai
Péter számos bíráló megjegyzést fűz ehhez az elemzéshez, bírálatai
azonban arra vezethetők vissza, hogy messzemenő következtetéseket
keresett az elemzésben.
<
|