Magyar Tudomány, 2008/10 1262. o.

Vélemény, vita



Hozzászólás

Tolnai Márton Tudósaink mérhetõ teljesítménye

az MTA Köztestületi Publikációs Adattár

adatainak tükrében címû cikkéhez1


Kollár István


egyetemi tanár,

Budapesti Mûszaki és Gazdaságtudományi Egyetem

Villamosmérnöki és Informatikai Kar

kollar mit . bme . hu


Michelberger Pál

az MTA rendes tagja, egyetemi tanár,

Budapesti Mûszaki és Gazdaságtudományi Egyetem

Közlekedésmérnöki Kar


A Magyar Tudomány augusztusi számában érdekes cikk jelent meg az MTA osztályaihoz kapcsolódó magyar tudósok egyes tudománymetriai adataival (Tolnai, 2008). A cikk még biztosan sok vitát fog kiváltani, különösen, hogy a benne leírt adatok háttere, forrása és feldolgozási módja sokak számára nem is ismert. Ráadásul az átlagos olvasó amúgy is nehezen tájékozódik az adatbázisok, mérõszámok és adatok között. Ez a hozzászólás ebben kíván kiegészítõ információt adni „laikusok”, vagyis tudománymetriával hivatásszerûen nem foglalkozók számára: egyáltalán mit jelentenek az adatok, és fõleg mit nem jelentenek. Aki esetleg máris bosszankodik, ezek alapján talán kevésbé lesz erre indíttatva.

Elõrebocsátjuk, hogy a publikációs tevékenység átláthatóvá tételével mélységesen egyetértünk. Tudományos életünk nagy fegyverténye lenne, ha a PhD-fokozatot vagy doktori címet szerzõk elõzetes publikációs tevékenységét egyformán, tárgyilagosan szemlélni lehetne, és az is sokat segítene, ha a fiatalok látnák az idõsebbek listáit. Ezért a Köztestületi Publikációs Adattár (KPA) és általában a mycite2 léte önmagában is nagy dolog, és azzal, hogy klónjai (MTA Kísérleti Orvostudományi Kutatóintézet – KOKI, Budapesti Mûszaki és Gazdaságtudományi Egyetem – BME, MTA Szegedi Biológiai Központ – MTA SZBK, Mezõgazdasági Biotechnológiai Kutatóközpont – MBK) lényegében ezzel azonosak és többé-kevésbé átjárhatók is,3 az elsõ lépést máris megtettünk. Egyelõre sajnos csak álom, hogy a nagyobb magyar egyetemek és kutatóintézetek mind ugyanígy összeköthetõ adatbázis(oka)t használjanak, pedig ez lenne a közérdek. Még az MTA Tudományos Publikációs Adattár (az MTA kutatóintézeteinek adattára) is különálló, eltérõ rendszer, melyet nem lehet az MTA KPA-val együtt keresni vagy listázni.4

A cikk legszembetûnõbb része kétségtelenül az osztályonkénti táblázat (nyolc osztályra). A táblázatok láttán legtöbbünk valószínûleg azonnal az ismerõs neveket keresi, és önkéntelenül is értékeli a sorrendekben elfoglalt helyeket. Véleményünk szerint ebbõl fog származni a legtöbb vita, ugyanis az írásban megjelenõ sorrendek („rangsor” felirattal) szinte mindenkit eleve felpiszkálnak. Különösen zavaró lehet a „bekerülhetnének a KPA fenti listájába” megjegyzés és névsor a lábjegyzetekben azok számára, akik nem kerültek be ide sem. Nem lenne baj, ha ezek a táblázatok csak tudományos versenyre, többletteljesítményre sarkallnának, de baj, ha a publikációk áttekintésének elutasítására ösztönöznek. Tudományos életünk átláthatósága, a publikációk szerepe biztosan javul, ha egyre jobban át tudjuk tekinteni, és egymáshoz tudjuk viszonyítani publikációs tevékenységünket. Könnyen lehet azonban, hogy ezek a táblázatok gyakori elutasításra fognak találni. Miért?

köztudott, hogy a tudománymetriai számokat nem szabad szakterületek között összehasonlítani, az osztályokon belül sem. Az osztályon belüli megkülönböztetés nélküli sorrend azt a képzetet kelti, mintha a megjelent nyolc osztály egy-egy homogén, közvetlenül összehasonlítható csoportot takarna,

az adatok eredetileg más célból (tehát nem nyilvános rangsor céljából, hanem egyedi publikációs/idézettségi listák megjelenítésére) kerültek be az adattárba,

az érintettek nem tudtak elõre arról, hogy a nevük ilyen rangsorokban megjelenik,

a kimaradók nem tudtak elõre arról, hogy nevük itt megjelenhetne, de nem jelenik meg, mert a KPA-ban vagy klónjai egyikében sincsenek rögzítve az adataik,

a táblázatok alapjául szolgáló oldalak (Statisztikai adatok [mycite]: URL) nem teljesek: nem mutatják, mely adatok melyik klónból származnak, és hogy mikoriak (feltehetõleg most is a június 30-i állapot látszik, ahelyett, hogy a máig bevitt adatokat mutatná), és nem lehet az egyéni listákat a weben szokásos módon kattintással elérni pontosabb információszerzés céljából,5

osztályonként megjelennek „szöveges saját közlések” (ezek ellenõrizhetetlenek); feltûnnek – ha nem is nagyon nagy számban – rossz kategóriákba besorolt adatok is (kutatási jelentések könyvként, konferenciacikkek könyvfejezetként, nem közzétett kutatási jelentések publikációként, nem nyomtatott elõadások cikként),

a felhasznált számok hitelessége mérsékelt, nem elõzte meg sem a KPA, sem a többi mycite-ok átfogó tartalmi ellenõrzése túlmenõen a szokásos ellenõrzéseken („a szerzõ a felelõs saját adataiért” – ez igaz, de nem zárja ki a szerzõi elfogultságot a bevitelnél, és az adatok egy része az adatellenõrzések ellenére máig így is maradt),

a publikációs listák a szerzõk által megadva, vagy az általuk megadott listák alapján készültek – ezek nagyjából teljesek, de a besorolások emiatt kissé esetlegesek,

a hivatkozások sokszor csak az adatbázisokból (WoS, MedLine) kerültek be, az ezeken kívül esõk sokszor nem is szerepelnek (például: a Scopus – az OKM ígérete ellenére – még mindig nem férhetõ hozzá általánosan),

az idézetek egy része önidézet, aminek nincs értéke, az itt közölt Hirsch-indexek kiszámítása mégis figyelembe veszi õket,

a kiszámított egyéni mérõszámok, különösen a Hirsch-indexek érvényessége a fentiek miatt kétséges, pedig a mycite önmagában jó program, csak az adatfeltöltés hiányos, illetve még nem elég pontos.

A következõkben a fenti szempontok egy részét elemezzük.


Össze nem mérhetõ adatok összehasonlítása


Trivialitás, hogy a tudománymetriai számokat nem szabad szakterületek között összehasonlítani. A Tudományos Publikációs Adattár weboldalon (Statisztikai adatok [mycite]: URL) ezt olvassuk: „A sorrendek különbözõ célú szakmai értékeléseket segíthetnek, de a szakterületek és a sorrendek nem összevethetõk. A mutatók használatakor tekintettel kell lenni az egyes tudomány- és szakterületek sajátosságaira, publikálási szokásaira.” A cikk 3. oldalán hasonló figyelmeztetés olvasható. Ez mind nagyon igaz, de a cikkben ténylegesen kinyomtatott és hangsúlyosan „rangsornak” hívott sorrendeken sajnos nem segít. Az önálló szakterület ugyanis nem akadémiai osztályokat jelent, szûkebb szakmacsoportokat is csak nagyon óvatosan. A Mûszaki Osztályon biztos igazságtalan ilyen számok alapján összehasonlítani egy anyagtechnológust egy áramlástanossal, vagy egy elektronikai technológust egy szabályozáselméleti szakemberrel, vagy egy biológiai/villamos határterületen dolgozó szakembert egy villamosgépes tudóssal. Ezen valamit segíthetne a szakterületek megadása a táblázatokban, de ez sajnos tipikusan formális és semmitmondó („Mûszaki tudomány”). Az osztályonkénti sorrendek megadása valószínûleg többet borzol az idegeken, mint amennyire tevékenységre sarkall az egészséges hiúságon keresztül…

Mindezek tetejében ezek a számok egyrészt az életmû gyarapodásával (életkor) nõnek, másrészt a kutatási idõszaktól is függnek: korábban a publikációs és keresési lehetõségek, valamint a „cikkgyártás hatékonysága” és sebessége, valamint a számítógépes lehetõségek a töredékét tették ki a mainak. Ezért korrektül nem mérhetõ össze egy fiatalabb és egy idõsebb kutató, még akkor sem, ha azonos életkorra vetített adatokat nézünk.

Rendkívül sokat számít a konkrét kutatási terület helyzete és publikációinak szerepe a világban. Például a textilipar mára döntõ részben Kínába került. A kínai szakemberek fõleg kínaiul publikálnak és olvasnak. Hogyan értékeljük a megmaradt európai és amerikai textiles szakemberek publikációit, csekély hivatkozottságukkal? Leírjuk-e õket, mint keveset produkálókat? Másokkal biztosan nem lehet összevetni a mérõszámaikat. A hatékony témaváltás jó néhány évbe kerül, egy ideig kevesebb közleménnyel és idézettel. Figyelembe tudja-e venni akármilyen mérés a kénytelen témaváltásokat?

Legyünk reálisak. A számok fontosak és valóban mérnek értékeket. Azonban nem általános összehasonlításban, hanem az illetõt saját magához, illetve szûkebb szakterületéhez viszonyítva. A sok publikáció a legtöbb esetben az átlagnál nagyobb aktivitást jelent, a folyóiratcikkek hiánya pedig valószínûleg értékrendbeli zavarokra utal. Az idézettség azt jelenti, hogy mások feltehetõleg olvassák, amit a szerzõ ír. A publikációk és az idézetek számában azonban nem mindegy, hogy általában mennyi a társszerzõ és milyen sorrendben (három hasonló társszerzõ együtt mintegy háromszor annyi cikket ír, mint egyedül…), melyek a szakterület publikációs szokásai, milyen hosszú a szakterület átlagos hivatkozási listája, mennyi a közvetlenül vele dolgozó vagy névlegesen hozzá tartozó doktoranduszok száma stb.

Mindezek miatt kijelenthetjük, hogy a mérõszámok önmagukban nem alkalmasak értékmérésre! Egy-egy szakembert csak szakember kollégái tudják helyesen értékelni, az adatbázis(ok)ból nyert információk alapján. Erre való a tudományos bizottságok habitusvizsgálata. Õk azok, akik a rengeteg módosító tényezõt és egyéni körülményt tényleg mérlegelni tudják. A számok tehát mindössze segédeszközök, ahogy az adatbázisok is azok. És az adatbázisok közül a megfelelõen kitöltött mycite nyújthatja a legteljesebb segédinformációt az egyes szerzõkrõl. Korrektül azonban csak emberek képesek dönteni, fõleg, ha a számítógép a kezük alá dolgozik az adatok megfelelõ tálalásával.


Rangsorok közzététele


Az adatvédelem egyik legfontosabb elve, hogy az adatokat csak a megadott célnak megfelelõ módon szabad felhasználni, vagyis az információs célból közzétett publikációs listákat minõsítésre, sorrendezésre és ezek megjelenítésére a szerzõk külön engedélye nélkül nem szabad felhasználni. Természetesen nem azt akarjuk mondani, hogy ezek személyes adatok, a „publikáció” neve is azt mutatja, hogy közzétett adatokról van szó, de nagyon sok szerzõ nem az összehasonlíthatóság igényével készítette el a listáját, és különösen a hivatkozási listák nem teljesek.

Megjegyezzük, hogy ezek a nehézségek a táblázatok közzétételébõl származnak. A mellékletben részletesebben is szerepel, melyik másik adatbázis használatából milyen más nehézségek származhattak volna. A mycite – megfelelõ feltöltéssel – az elérhetõ legteljesebb információt tartalmazná, és így jobban használható eredményeket adna.

Valószínû, hogy ilyen rangsorokat nem is lenne szabad nyomtatásban rögzíteni. A (Statisztikai adatok [mycite]: URL) alatti weboldal azért jobb ennél, mert nem rögzít sorrendet, hanem szempontok szerint átrendezhetõ listákat mutat. Sajnos azonban jelenleg (aug. 31) ez a weboldal nem dinamikus, vagyis hiába javítja ki valaki az adatait valamelyik mycite-ban, az ismeretlen dátumú frissítéstõl függ, hogy ezek a táblázatban mikor jelennek meg, és a listában semmilyen információ nem látható arra nézve, hogy valakinek az adatai mikor frissültek utoljára (az utolsó talán június végén lehetett), vagy hogy hol kezeli õket. Úgy néz ki, mintha az adatok frissek lennének. De nem feltétlenül azok…

A „tudósok teljesítményét” egyébként jobb lenne a „tudósok munkásságának” hívni: a teljesítmény inkább az alkotó évek számával osztott mutató lehetne, legalábbis ha a cikk a publikációs tevékenységet mutatná be és nem az idézettséget. Azonban a mérõszámok közül kettõ az idézettségre vonatkozik, a harmadik pedig arra, hogy hol, melyik folyóiratban publikált az illetõ (bizonyos idézeteken keresztül értékelve), nem arra, hogy mennyit, vagy milyen minõségben. Ráadásul csak az ismert adatok alapján, nem általában.

Van még egy nehézség, ami az adattárak gondos tervezésével sem teljesen kerülhetõ ki. Az ember gondolkodó lény. Ha tudja, hogy tevékenységét mérik, különösen, ha ez értékelését, támogatását, lehetõségeit stb. érinti, akkor aktivitását önkéntelenül is a jobb mérési eredmény irányában módosítja. Ha a darabszámokat listázzuk, megszaporodnak a könnyen publikálható írások (konferenciacikkek, közzétett kutatási jelentések [Technical Report]). Ha a könyveket jobban értékeljük, megjelennek a könyv-szerû összeállítások. Ha folyamatosan csak a folyóiratcikkek összdarabszámát nézzük, akkor megszaporodnak a hazai folyóiratcikkek. Ha az önidézetek számítanak, akkor a cikkekben több lesz az önhivatkozás. Nem mindenki jár így el, de ez még rosszabb: az jár jól, aki alkalmazkodik a körülményekhez. Aki elvszerû, függetlenül gondolkodik, az rosszul jár. Részben ez a magyarázata annak, hogy sokan csak az impakt faktoros folyóiratcikkeket akarják értékelni: ezt nehezebb itthonról befolyásolni. Bár ha a összegzett IF-et mutatjuk, a hangsúly észrevétlenül el fog csúszni a nagyobb impakt faktorú folyóiratokban való publikálás felé (például mûszakiak az orvosi határterületek irányába)… Nagyon vigyázni kell tehát azzal, mit teszünk közzé és hogyan.


A szerzõk által bevitt adatok


A bevitt adatoknál a szerzõk (adminisztrátorok) hozzáállása nagyon eltérõ. Ugyan mindannyian tudjuk, mi a publikáció, mégis sok publikálatlan (például OTKA) kutatási részjelentés jelenik meg a listákban, jó esetben az „Egyéb” kategóriában. Van, aki gondosan megjelöli, melyek a nem tudományos cikkei, de van, aki válogatás nélkül mindent megad. Van, aki szóban elhangzott elõadásait is beírja (jó esetben oldalszám nélkül, rosszabb esetben a kivonat oldalszámával), van, aki az utolsó cikkig aprólékosan pontos. Van, aki a lexikon minden címszavát külön tételként beírná, van, aki egyetlen publikációnak tekinti ezeket. Van, aki egy konferencia szerkesztõbizottsági tagsága esetén megadja magát szerkesztõnek (és a kiadványt könyvként), van, aki még a konferenciacikkeit sem adja meg. Sokan vagyunk, és sokfélék. Ezért a publikációk darabszámát nem szerencsés egyszerûen megadni. Az az érv, hogy az adatokért a szerzõ felel, tetszetõs, de ha listákat készítünk, akkor a számok és a rangsor nem függhetnek a szerzõk szokásaitól és hozzáállásától. Helytelen a lelkiismeretes és pontos szerzõket hátrányosabb színben feltüntetni, csak mert lelkiismeretük érzékenyebb, mint másoké.

Hasonló a helyzet a „szerzõk által megadott” számokkal. Ez a kifejezés azt jelenti, hogy ezek a szerzõk nem vitték fel adataikat adattárba, ehelyett a számaik ellenõrizhetetlen Word file-okból származnak, valószínûleg a doktori értekezés habitusvizsgálatához beadott számok alapján. Az ilyen számokba és listákba még a gondos szerzõknél is sok hiba becsúszik. Sokszor még ismétléseket is lehet látni az ilyen listákban. Ezért nem szerencsés a többiek által az adattárban többé-kevésbé ellenõrizhetõ módon megadott adatok közé kézzel megadott, ellenõrizhetetlen adatokat keverni. A jövõben jobb ezt elkerülni. Aki meg akar jelenni a listában, az vagy vigye fel az adattárba az adatait, vagy az MTA megbízottja6 vigye fel a Word file-ok tartalmát.

A hivatkozások száma


A szerzõk mycite-ban megadott hivatkozásainak száma az „igazi” hivatkozási számokhoz képest szerzõnként nagyon ingadozó, ahogy mindegyik adatbázisban az. A mycite elõnye az, hogy teljessé tehetõ, ha a szerzõ akarja. Most sok esetben még nem az.

Aggályos továbbá, hogy a táblázatban a hivatkozások számai sajnos az önhivatkozásokat is beleszámítva vannak megadva (minden ilyen értelmû megjegyzés nélkül), pedig ezeket semelyik osztály sem értékeli a habitusvizsgálatban. A mycite egyik elõnye pont az lenne, hogy benne az önhivatkozások egyértelmûen meg vannak jelölve.7

Nyilvánvaló elõnyben vannak azok, akik a doktori értekezés beadása miatt nemrégen végigkeres(tet)ték a könyvtárat. Az õ listájuk közel teljes lehet (legalábbis, ha bevitették). Azoknak is jó a helyzetük, akiknek a szakmai szokások alapján a WoS-ban vagy a Medline-ban benn van a legtöbb hivatkozása. De a többiek helyzete ilyen szempontból rossz.


Mérõszámok


A fentiek miatt a megjelentetett számokat (összes idézetek száma, Hirsch-index, összegzett impakt faktor) nagyon óvatosan kell kezelnünk. Van, aki pontosan megadta a publikációit, és van, aki alig-alig.


Az összes idézetek száma


Az idézetek száma elvben a cikkek szakmai közvéleményre gyakorolt hatását méri. Legalábbis ez az elsõ gondolatunk. Csakhogy…

a táblázatokban közölt számokba az önidézeteket is beleszámítja,

a megadott, de nem publikációértékû idézeteket (szóbeli hivatkozás, tudományos diákköri munka stb.) minden további nélkül beleszámítja,

nem lehet látni, melyek az ellenõrizhetõ, adatbázisokból (WoS, Scopus, IEEE CrossRef) vett idézetek, és melyek a közvetlenül nem ellenõrizhetõ idézetek,

nem lehet látni, kik vittek be kézzel is idézeteket, és kik csak adatbázisokból,

a soktársszerzõs publikációk idézetei ugyanúgy számítanak, mint az egyszerzõsöké (lásd 5.4).

A további gondokat és megoldási javaslatokat lásd a következõ pontban (Hirsch-index).


Hirsch-index


Az ún. Hirsch-indexet a fizikus Jorge E. Hirsch találta fel az idézettségek összehasonlítása céljából. Az index azt adja meg, hogy a szerzõnek hány olyan publikációja van, aminek legalább annyi idézõje van, mint ez a szám. Ha tehát az index 12, akkor a szerzõnek van 12 olyan publikációja, melyekre egyenként legalább 12 idézet ismert. Ez az index jobb, mint a semmi, de a következõ bajai vannak:

csak aránylag nagy publikáció- és idézõszámokra mér elfogadhatóan (fizikus találta ki, akinél ez nem baj…), kis értékeknél nagyon érzékeny a véletlenre, és hamar „telítõdik” (vagyis az elsõ néhány értéken könnyû túljutni, aztán hirtelen nehezedik a továbblépés, tehát pl. a mûszaki területen nem ott differenciál, ahol kellene),

mivel az eredeti definíció az SCI-n alapult, az önhivatkozásokat is beszámította, ami elvileg nagyon vitatható – éppen ezért képes a mycite a keresést leszûkíteni a független hivatkozásokra, ami szintén érvényes, sõt vonzóbb index-definíciót jelent,

nem vesz tudomást a kiugró hivatkozási értékekrõl – emiatt használják több helyen a g-indexet, mely azt adja meg, hogy a szerzõnek hány olyan publikációja van, aminek az átlagos hivatkozási száma legalább annyi, mint az index. Ha tehát a g-index 15, akkor a szerzõnek van 15 olyan publikációja, melyekre összesen legalább 15x15=225 idézet ismert (de ez lehet egyetlen publikáció 225 idézete is, ha van 15 publikációja),

nem vesz tudomást a hivatkozott publikációk társszerzõinek számáról (lásd 5.4).

A Hirsch-index minden olyan adatbázisból kiszámítható, mely idézeteket tartalmaz. Ámde csak az adott adatbázisban fellelhetõ információt használja fel. Nem is tehet mást. Íme hét, bárki által használható lehetõség a Hirsch-index kiszámítására:

Web of Science (önhivatkozásokkal)

Scopus (önhivatkozásokkal, illetve azok nélkül)

mycite (önhivatkozásokkal illetve azok nélkül)

Quadsearch (Quadsearch honlap, URL) (Google Scholar-ból, önhivatkozásokkal, weboldal)

Publish or Perish (Publish or Perish honlap, URL) (Google Scholar-ból, önhivatkozásokkal. PC-s program)8

Van, akinek az így kapott Hirsch-indexei közül öt más és más… sõt, az index elvben bármikor változhat is, bár ilyenkor általában legalább nõ, és nem csökken.

A Tolnai-cikk (Tolnai, 2008) a mycite alapján számol, az önhivatkozásokat is beleszámítva. Azt mondhatnánk: helyesen jár el, hiszen mindenkit azonos mércével mér. Csakhogy…

a szerzõk egy része az önhivatkozásait nem is vitte be, mert az gondolta (helyesen), hogy ezeknek nincs különösebb értékük,

más szerzõk az „Egyéb” csoportban feltüntettek nem publikáció jellegû hivatkozásokat is (diplomaterv, TDK-dolgozat, szóbeli említés), s ezzel adataik „javultak”,

kevesen vették a fáradságot, hogy a hivatkozásaikat a nehezebben feldolgozható forrásokból is összegyûjtsék (például Google Scholar).

Vagyis az történt, hogy ebben az nyert, aki (egyébként cél és indok nélkül) bevitte az önhivatkozásait is, és most ráadásul még azt is üzenjük a szerzõknek ezzel a cikkel, hogy vigyék be ezeket, mert azzal jobbak lesznek az adataik – sõt minél több önhivatkozást tegyenek a cikkeikbe, mert így az adataik még tovább fognak javulni. Ezt biztosan nem akarjuk.

Sokat segítene, ha az önhivatkozások bármilyen figyelembe vételét megszüntetnénk, hiszen a mycite-ban pontosan tudjuk, melyek a független hivatkozások. Ráadásul a megadott index csak a mycite által látott Hirsch-index…, akinek nincsenek ide gondosan bevive a hivatkozásai, vagy csak részben, annak az indexe pici, és mindez nincsen feltûnõen megemlítve. Ugyanez a baj az KPA-ban (Statisztikai adatok [mycite]: URL) megadott értékekkel is.


Összegezett impakt faktor

(cumulative impact factor)


A folyóiratok impakt faktora a Web of Science-ben figyelt folyóiratokon belül van definiálva: adott évben a figyelt folyóiratokban az adott (szintén figyelt) folyóirat elõzõ két évfolyamában megjelent cikkekre történõ átlagos hivatkozásszám. Az IF=0,816 tehát azt jelenti, hogy az adott évben az adott folyóirat elõzõ két évi cikkeire a fenti körben átlagosan kevesebb, mint cikkenként egy hivatkozás esett.

Az impakt faktor elsõsorban folyóiratok tudományos életre gyakorolt hatásának „minõsítésére” szolgál. Ami az IF felhasználását illeti, ugyanúgy vigyázni kell vele, mint az összes tudománymetriai számmal (Joint Committee, 2008; Schubert, URL), különösen mert

az IF értéke nagyon függ a szakterület (és a folyóirat) szokásaitól: a társszerzõk tipikus száma, a hivatkozások mennyisége, az önhivatkozások száma (beleszámítanak…), a cikkek hossza, az összefoglaló cikkek száma stb.,

az ISI döntésétõl, és nem a szakterület közvéleményétõl függ az egyes folyóiratok figyelése/negligálása,

a folyóiratválogatás döntõen alapkutatás-centrikus.

Az utóbbi idõben egyre inkább terjed az „összegzett impakt faktor” figyelése. A táblázat is ezt tartalmazza: a publikált cikkek folyóiratai megfelelõ évben érvényes IF-jeinek az összege. Ezt kíváncsiságból meg lehet nézni, de csak nagy óvatossággal szabad akármire is felhasználni. Oly mértékben szakterületfüggõ, hogy egymással összevetve az alma és a körte esetével állunk szemben. Persze ha valakinek nincsen IF-es cikke, az könnyen lehet, hogy baj. De valóban százszor kevesebbet ér-e egy 0,021-es impakt faktorú folyóiratban megjelent cikk, mint a 2,100-esben? És a 0,000 impakt faktorú folyóiratokról vajon mit gondolunk?


Az összes publikációk száma


Az Tolnai-cikk (Tolnai, 2008) táblázatai nem tartalmazzák az összes publikációk számát, melyet azonban minden adatbázis megad. Ez a szerzõk munkásságának értékelésében szintén fontos lenne, de „sorrendi” mutatóként valóban jobb ezt sem használni. Egészen más például egy 600 oldalas könyv, egy 150 oldalas fejezet, egy konferenciacikk, és egy napilap-glossza. Összeadva ez mind darab-darab, sõt a mycite beleszámítja az „Egyéb” alatt esetleg megadott nem publikációkat is. A darabszám tehát túl globális mérõszám. Ha valakinek ötven publikációja van, akkor ez várhatóan kevesebb, mint a 250, de konkrét esetekben még ez sem biztos.

Nagyon ingadozó a társszerzõk száma is. Nyilvánvaló, hogy a „magányos farkasok” eredménye egy publikációban egy fõre számítva sokkal több, mint a tipikusan hat-nyolc fõs publikációk szerzõié, hát még a tizenöt-húsz fõsek szerzõié. Az MTA Mûszaki Tudományok Osztálya habitusvizsgálatában ezért automatikusan osztunk a szerzõk számával. Lehet azon vitatkozni, hogy ez nem a másik véglet-e. Mindenesetre a mycite képes arra, hogy tárolja a szerzõk százalékos hozzájárulását (ezt használják fel a BME VIK doktori tanácsai), és értekezés beadásakor a publikációkhoz beírt százalékok nyilvánosak is. Ez elegendõ ellenõrzésnek látszik: a méltatlanul leértékelt társszerzõ tiltakozik, ha akar.


Kitûzhetõ célok


Adatbevitel • Nagyon jó lenne, ha a tudomány valamennyi területén elõbbre lépnénk a publikációk áttekintésével és közzétételével. Ez nagy munka, és elosztott rendszerben lehetne hatékonyan végrehajtani: minden intézmény (vagy intézménycsoport) futtathatna egy-egy helyi programot, és országosan kereshetõ lehetne minden adat. Hozzá kell tenni, hogy ez Magyarország versenyhátrányából is faraghatna egy kicsit: Európa általában nem áll még olyan jól a publikációs adatokkal, mint a mycite lehetõségei…, de tudjuk, hogy minden adatbázis csak annyit ér, amennyit a benne tárolt adatok. Most kellene tehát az adatokat feltöltenünk.

Karbantartás • Elvben a fõ bevitel után a karbantartás nem nagy dolog: idõrõl-idõre ki kell gyûjteni a WoS-ból, a Scopus-ból és a Google Scholar-ból az adatokat, és be kell vinni. Ez központilag reménytelenül nagy feladat, viszont helyileg, megfelelõen kiképzett adminisztrátorokkal elképzelhetõ. Vagyis: az intézményi döntéshozókat meg kell gyõzni, hogy ez milyen fontos (pl. mert az intézményi és pályázati pénzek várhatóan össze fognak függeni a kimutatható adatokkal [lásd Kollár, 2008a]), és rendszeres tanfolyamokat kell tartani a jelentkezõ adatkezelõknek (könyvtárosok, adminisztrátorok, érdeklõdõ szerzõk).


A jövõ igényei


A publikációs listák kezelése, áttekinthetõsége jó, de nem szabad, hogy bürokratikus öncéllá váljon. Nem egy „vezetõi információs rendszer” a fõ cél (bár õk is használni tudják), hanem egy mindenki számára egyformán áttekinthetõ, informatív, jól felhasználható, országos rendszer. Ezért

fontos, hogy az adattartalom lehetõleg ellenõrizhetõ és javítható legyen, vagyis ahol csak lehet, a mycite-ban szereplõ publikációs/idézettségi adatokat össze kell kapcsolni adatbázisokkal (mi melyikben található meg – ez növeli a hitelességet is),

az adatfelviteli arányt javítani kell (mycite-klónok telepítése, Word file-ok intelligens bevitele, adminisztrátorok kiképzése stb.),

a szerzõket érdekeltebbé kell tenni a bevitelben (az ellenõrizhetõ adatok elõnyben részesítése, doktori/akadémikusi cím odaítélése adatbázisban lévõ adatok figyelembe vételével, kutatási és ösztöndíjpályázatoknál a mycite-ból való feltöltés az OTKA példájára (például Bolyai-ösztöndíj), intézményi támogatások publikációkkal kimutatható tevékenységhez kötése stb.),

a publikációs adatok részeként legalább a fontos cikkeket is teljes formában elérhetõvé kell tenni (tartalomszolgáltatás – erre a mycite-ban már most is van lehetõség),

a mycite-ban lévõ adatokat idõrõl-idõre fel kell tölteni adatbázisokba (például: Scopus vagy Google Scholar), legalábbis azokat, amelyek még nincsenek ott meg, illetve a listákat angol nyelven kereshetõvé tenni,

(az elõzõ két pontban leírtak hatékonyan és tisztességes úton növelik kutatóink nemzetközi láthatóságát, hírnevét, olvasókat, felhasználókat és így idézõket toboroznak, ez pedig mindenkinek jó)

a szerzõk számára még több szolgáltatást kell nyújtani (információs oldalak, statisztikák, mérõszámok),

intézmények, tanszékek, csoportok számára állandóan naprakész összefoglaló listákat és táblázatokat kell nyújtani,

a mycite programot a szélesebb elterjesztéshez professzionális szolgáltatássá kell fejleszteni (ehhez máris közel van, de ha az MTA rászánná magát, még egy fejlesztési ütem sokat lendíthetne elterjedésén).9

Ha az adatfeltöltést támogatni szeretnénk, érdemes lenne az MTA KPA „gazdahelyén” (MTA KSZI) az érintettek, illetve adminisztrátoraik számára olyan tanácsadó/adatfeldolgozó szolgáltatást biztosítani, hogy a listákat helyileg be tudják vinni. Tréningeket lehetne szervezni, hogy adminisztrátorok/könyvtárosok az adatbevitelt gyakorolják. A KSZI jelenlegi könyvtárosi kapacitása a karbantartásra sem igazán elegendõ. Azután mindazok, akiknek hiányosak az adataik, kaphatnának barátságos e-mailes felszólítást a bevitelre. Akiknek aránylag régi (mondjuk fél évnél régebbi) a tulajdonukban lévõ adatok utolsó változtatása, vagy a korábbi trendtõl nagyon eltér publikációik/idézõik száma, idõrõl idõre kaphatnának errõl e-mailen értesítést. Ehhez mindössze az kell, hogy a KPA-ban (mycite-ban) tárolt e-mailek helyesek legyenek, és a program képes legyen ilyen szolgáltatásra.


Kulcsszavak: tudománymetria, scientometria, impakt faktor, Hirsch-index, idézettség, hivatkozás, KPA, köztestületi publikációs adattár, publikációs lista, adattár

Melléklet


A tudománymetriai adatok néhány lehetséges forrása

háttérinformációk a cikkhez –

A tudományos publikációk adatait már régóta katalógusok/adatbázisok tartalmazzák. Ezek elõször nyomtatásban készültek, majd kb. a 90-es évektõl számítógépen, elõször CD-n, majd a weben is elérhetõ formában.


Web of Science


Különleges helyet foglalt el köztük az amerikai ISI által összeállított Science Citation Index (a weben ma elérhetõ formáját Web of Science-nek hívják). Ennek különlegessége, hogy az idézeteket figyeli, 1960-tól jelenik meg, de 1945-ig visszamenõleg tartalmaz adatokat. Azóta kb. 6500–8700 folyóiratot figyelnek úgy, hogy a cikkek irodalomjegyzékeit rendszeresen, standard formában beírják az adatbázisukba. Bár ez a forrásszám korlátozott, eléggé sok ahhoz, hogy hosszú ideig az SCI legyen a hivatkozások szisztematikus keresési forrása.

A WoS nehézsége, hogy csak adott körön belül mozog (bár a figyelt folyóiratok összes hivatkozását feldolgozza, tehát például a nem figyelt konferenciacikkekre történõket is, és 2008-tól megjelentek bizonyos konferenciaanyagok is), és az önhivatkozásokat1 alapértelmezésben ugyanúgy számolja,2 mint a független hivatkozásokat. Ennek részben az az oka, hogy az azonos nevû szerzõket nem képes megkülönböztetni: külön információforrás nélkül ugyanis nem lehet megállapítani, hogy a „külsõ cikkre” történõ hivatkozások megegyezõ szerzõre történnek-e.


Scopus


A Scopus a WoS versenytársaként jelent meg 2005 környékén. Abból a felismerésbõl indult ki, hogy ma már sok folyóirat és konferenciacikk hozzáférhetõ a weben, ezért lehetséges az elektronikus feldolgozásuk. Ezért szélesebb körbõl és kevésbé válogatva merít, mint a WoS (mintegy 23 ezer periodikus kiadványból), ami jó, de kicsit esetleges. Ugyanakkor a szerzõket nevek és munkahelyek szerint csoportosítja, és a szerzõk maguk meg tudják adni, hogy mely név/munkahely-párok fedik õket. Ebben azonban a Scopus kezelõi nagyon elõvigyázatosak: csak a publikációs listákat látva hajlandók a csoportosításra, ami a hitelességüket nagymértékben emeli. Tapasztalataink szerint az alaptudományok területén (matematika, fizika, kémia, biológia stb.) az azonos szerzõk hivatkozási száma hasonló a WoS-ban és a Scopus-ban (bár az önhivatkozások az utóbbiban jól kiszûrhetõk), míg az alkalmazott tudományokban, pl. mûszaki területen a Scopus több hivatkozást tartalmaz.


Google Scholar


Van egy különleges rendszer: a Google Scholar. Ez bevallottan a weben „szüretel”, web crawlerek (automatikus lépkedõk/olvasók) segítségével, és ebbõl állít össze adatbázist. Ez nagyon jól hangzik, de elõnye hátrány is: válogatás nélkül minden használhatónak látszó weboldalt feldolgoz. Ezért hibás, elgépelt, meg nem jelent cikkeket, hivatkozásokat is tartalmaz, s mérésre csak korlátozottan alkalmas. Az azonos nevû szerzõket nem kezeli jól.


Szakmai adatbázisok


Vannak szûkebb szakmai adatbázisok is: MedLine (orvosi/biológiai terület), Chemical Abstracts/SciFinder Scholar (kémia), Zentralblatt für Mathematik/ZMATH (matematika), Mathematical Reviews/MathSciNet (matematika), ArXiv (fizika), Inspec (villamosmérnöki), IEEE Xplore (villamosmérnöki) stb. Ezek merítése a szûkebb terület miatt gondosabb és átfogóbb, de csak az adott részterületre korlátozódik.


A Köztestületi Publikációs Adattár (KPA)

és a többi mycite program


A fentiek miatt született meg a Köztestületi Publikációs Adattár. Ebbe a legfontosabb publikációk és idézetek az adatbázisokra támaszkodva automatikusan bevihetõk, és kiegészíthetõk a szerzõ által megadottakkal: a szerzõ saját publikációs listája alapján sok adat átvehetõ, és a hiányzó adatok kézzel pótolhatók. Vagyis gondosabb szerzõk esetében a „teljes” adatsor összeállítható. Lehetséges az is, hogy Word listákat félautomatikusan beolvassunk, és ami esetleg téves, utólag javítsuk, sõt, a Google Scholar és konferencia CD-k adatai is átvehetõk, legalábbis ha a szerzõ ezek kikeresésére/átnézésére hajlandó, vagy könyvtárosokat/adminisztrátorokat ezzel megbíz.

A KPA szûkebb területre koncentrál (köztestület), tehát a fiatal tudóspalánták (PhD-ra készülõk) nem tudják ide felvinni az adataikat. Ez az egyéni fejlõdés szempontjából aggályos: legkésõbb a PhD-értekezés benyújtásakor kellene bevinni a publikációs listákat, és a védés után csak karbantartani. Ezt az MTA KSZI által kezelt KPA nem engedi meg, ezért az intézményi klónok (például BME PA) kezelése elengedhetetlen.3

A BME PA jelenleg mintegy 28 ezer publikációs tételt és mintegy 30 ezer idézõt tartalmaz. A cikk 977. oldalán megadott adat (mindössze a BME-bõl származó egyetlen személy 368 cikkének adatait használták fel) csak valamilyen tévedésen alapulhat, mert az MTA Mûszaki Tudományok Osztálya akadémikusainak, doktor képviselõinek és bizottsági elnökeinek mintegy 50 %-a a BME PA-ban kezeli az adatait (lásd Az MTA Mûszaki Tudományok Osztálya tagjainak publikációi, 2008), és a megíráskor felhasznált adatokat a cikk is csak innen vehette.


Intézményi Publikációs Adattárak


A publikációs adatok nyilvántartási igénye párhuzamosan több intézményben is megjelent. Azt gondoljuk, a BME helyesen döntött, amikor – óvatos lépésekkel – a KPA klónját elkezdte alkalmazni. Tudomásunk van más helyekrõl is, ahol valamilyen szintû adatbázis feltöltése elkezdõdött, vagy tervezik (például: Miskolci Egyetem, Semmelweis Egyetem, Eötvös Lóránd Tudományegyetem, de biztosan vannak mások is). Ha a tudományos élet és az ország érdekeit nézzük, akkor ez az a pont, ahol azonos irányba kellene mennünk. A mycite- alapú programok ma már elég sokat tudnak ahhoz, hogy minden igényt kielégítsenek, és az esetleges intézményi mycite-ok önállóan is futtathatók, tehát az intézményi függetlenség is megõrizhetõ. Össze kellene fognunk, az esetleg még felmerülõ igényeket megfogalmazni és programoztatni: például az egyik adattárba bevitt publikációkat a másik adattárban kezelt szerzõhöz is hozzá kellene tudni rendelni. A programok futtatásához – mint minden ilyen programhoz – azonos háttéradatok kezelésére lesz szükség (folyóiratok neve, ISBN száma, kiadási helye, lektoráltsága, impakt faktora, városok és országok magyarul/angolul/eredeti nyelven, államok nevei, amelyik országban vannak, kiadók és székhelyük, konferenciaszervezõk, konferenciák, szerkesztett könyvek, publikációk és idézõk kategóriái és alkategóriái stb.), ami központilag, szolgáltatás-szerûen felkínálható lenne. Ezekkel mindenki jól járna. Felesleges mindezt külön-külön megtenni. Vagy mégis ilyen gazdagok vagyunk?


A Hirsch-index meghatározása


Az eljárás elvileg egyszerû: a publikációkat sorba rendezzük az idézõk száma szerint, és megkeressük, melyik az utolsó, melynek legalább annyi idézete van, mint a sorszáma. Szerencsére az adatbázisok mindegyike nyújt valamilyen automatikus kiszámítási lehetõséget. Ezek „receptjét” a weben külön megjelentettük (Kollár, 2008), hogy így az olvasók a saját indexüket könnyen ellenõrizni tudják.



Irodalom

A legtöbbet idézett publikációk (mycite). URL: http://www.mtakpa.hu/kpa/multi/molist.php

Az MTA Mûszaki Tud. Osztálya tagjainak publikációi (kigyûjtés, folyamatosan frissítve). http://www.mit.bme.hu/services/pubinfo/MTA-MTO.xls

Hirsch index. http://en.wikipedia.org/wiki/Hirsch_number

Joint Committee on Quantiative Assessment of Research (Robert Adler, John Ewing, Peter Taylor) (2008): Citation Statistics. IMU (Nemzetközi Matematikai Unió) -tanulmány az idézettségi statisztikákról. URL: http://www.mathunion.org/fileadmin/IMU/Report/CitationStatistics.pdf

Kollár István (2008a): Tudományos publikálás hatékonyan.

http://www.mit.bme.hu/services/pubinfo/szakirod-kezeles.pdf

Kollár István (2008b): A Hirsch-index meghatározása (receptek).

http://www.mit.bme.hu/services/pubinfo/MT-tudomanymetria-kieg.pdf

Publikációs információs weboldal a BME-n. http://www.mit.bme.hu/services/pubinfo/

Publish or Perish honlap. http://www.harzing.com/pop.htm

Quadsearch honlap. http://quadsearch.csd.auth.gr/index.php?lan=1&s=2

Schubert András: Impakt Faktor. URL: http://www.kfki.hu/library/imp/impakt_faktor.htm

Statisztikai adatok (mycite). URL: http://www.mtakpa.hu/kpa/multi/statisztika.php

Tolnai Márton (2008): Tudósaink mérhetõ teljesítménye az MTA Köztestületi Publikációs Adattár adatainak tükrében. Magyar Tudomány. 8, 976–988.

URL: ./08aug/tolnai.html



1 A cikk a lap 2008. augusztusi számának 976–988. oldalain jelent meg.

2 A KPA és klónjai a „mycite” program továbbfejlesztései. Ez egy mysql alapú adatbázis és egy php alapú webes kezelõprogram együttese. A továbbiakban összefoglalóan mycite programként hivatkozunk rájuk. Ezek: a KPA, és a következõ intézmények adattára: MTA KOKI, BME, MTA SZBK, MBK, valamint hasonló az SE adattára is, de sajnos kissé eltérõ.

3 Szerzõk szintjén az egyik adattár be tudja emelni keresõjébe a másikban szereplõ szerzõt, sõt, összesítõ adatok is lekérhetõk, és a fõ publikációkategóriák is megegyeznek. Publikációk szintjén (például társszerzõk hozzárendelése) ez sajnos még nem mûködik.

4 A cikkben említett KPA–TPA-összeköttetés is sajnos csak azt jelenti, hogy adatokat jól/rosszul át lehet vinni a TPA-ból a KPA-ba, de a két rendszer együttesen nem kereshetõ, és on-line össze sem köthetõ: külön-külön kell feltölteni õket, vagyis vagy dupla munka a karbantartás, vagy pedig az egyik el-elmarad. Ráadásul a TPA-ban eleve kevesebb a mezõ, tehát a KPA-ba átvitt információk még hiányosak is. A TPA idézõ része nem is publikus (lásd http://www.mtatpa.hu )

5 A nevekre rákattintva most az MTA honlapján látható egyéni weboldalak jelennek meg, ami nem baj, de innen a publikációs jegyzék sokszor nem érhetõ el. Megoldás lenne, ha például a publikációk számára kattintva megjelenne a teljes publikációs jegyzék, és ebbõl legalább a fontosabb cikkek teljes szövege is.

6 Például: Kutatásszervezési Intézet (KSZI) vagy a Doktori Tanács

7 Szigorúan véve a szerzõ szempontjából még az önhivatkozásokat is osztályozni lehetne saját és társszerzõi önhivatkozásokra.

8 Kicsit mást ad, mint a Quadsearch…

9 Más dolog a jelenlegi fejlesztés kevés felhasználóval és kézi kipróbálásokkal, és más dolog lenne sok felhasználó és sok helyen futó program, széleskörû mûszaki támogatással.

1 Azonos szerzõ van a hivatkozó és a hivatkozott cikk szerzõi között.

2 A független hivatkozó cikkeket külön ki lehet szûrni, de az nem használható ugyanúgy, és nem is a hivatkozásokat, hanem a hivatkozó cikkeket szûri…


<-- Vissza a 2008/10 szám tartalomjegyzékére


<-- Vissza a Magyar Tudomány honlapra


[Információk] [Tartalom] [Akaprint Kft.]