Astrophysics és az MTA Csillagászati és
Földtudományi Kutatóközpont Konkoly Thege Miklós Csillagászati
Intézet (CsFK CsI) által kiadott kis folyóirat, az Information
Bulletin on Variable Stars), ami megkönnyíti a cikkek indexelését. A
többi folyóiratnál informatikai eszközök – mint a DJIN –
alkalmazására van szükség, a szakirodalom mára már pusztán emberi
munkaerővel nem preparálható.
A georeferálás (különböző objektumok földrajzi
koordináta-rendszerbe illesztése) mintájára beszélhetünk
genoreferálásról is: egy valamiféle kísérlet során meghatározott
bázispársorozat (DNS-darabka) elhelyezéséről az adott élőlény teljes
genomjában. A text2gene projekt (Haeussler et al., 2011) célja a
szakirodalomban publikált bázispár-sorozatok összekapcsolása
genetikai adatbázisokban fellelhető génekkel, a genom szakirodalmi
annotálása. 2011-ben a PubMed Central 150 000 cikkét dolgozták fel.
A kutatók dolgoznak további szövegforrások feldolgozásán – de a
különböző folyóiratok kiadóinak engedélyét megszerezni a
szövegbányászatra hónapokba, évekbe kerül tapasztalatuk szerint. A
projekt eredményeként a genom adatbázishoz kapcsolható lesz az egyes
génszakaszokkal foglalkozó szakirodalom – mint ahogy a digitális
várostérképeken megtekinthető, milyen fotót töltöttek fel egy adott
utcasarokról.
*
A tudományos folyóiratok cikkeit begyűjteni – még ha a
szövegbányászattal próbálkozó kutató intézménye érvényes
előfizetéssel rendelkezik is – nem feltétlenül egyszerű. Bár a
kutatók az egyes cikkeket egyenként letölthetik, a robotokkal
történő tömeges cikkletöltés könnyen az elérés blokkolását
eredményezheti. Egyes kiadók, folyóiratok támogatják a
szövegbányászatot – a saját elképzeléseik szerint. Ilyen az Elsevier
és a nyílt hozzáférésű Public Library of Science (PLOS). A
fogadtatás vegyes: a kutatók részben az egyes szabályokat vitatják,
részben azt, hogy az egyes kiadók szabályozásai egymástól
különböznek, és a hozzáférési jogok megszerzése jelentős terhet
jelent. A szövegbányászatban rejlő lehetőségek jobb kihasználásához
részben nyílt hozzáférésre, részben egységesítésre lenne szükség.
Casey Bergman, a Manchesteri Egyetem
bioinformatikusa 2012-es blogbejegyzésében (URL2)
fel is teszi a kérdést, miért nem használják ki jobban a PubMed
Central által nyújtott adatbányászati lehetőségeket? Mindazonáltal
felsorolja azokat a cikkeket, amelyek a repozitóriumban található
teljes Open Access anyag felhasználásával készültek.
A Hágai Deklaráció – e cikk írásának idején nem
végleges formában, szabadon kommentálhatóan – az ismeretfeltárás
jogi kérdéseire összpontosít. Azonban a kiadók fenntartásai között
technikai jellegűek is vannak: a nagyméretű PDF-fájlok tömeges
letöltése túlzott terhelést jelenthet a kiszolgáló számítógépeken.
A cikkek robotok által való, tömeges szüretelésének engedélyezése
véleményünk szerint nem elegendő – technikai támogatásra és
megegyezésekre is szükség van. A folyóiratok honlapjain található
cikkek emberi „fogyasztásra” készültek. A szöveg kibontása PDF- vagy
HTML-állományokból nem feltétlenül könnyű. Véleményünk szerint a
következő lépésekre lenne szükség:
• a cikkek szövegének gépi formában való
feldolgozásra alkalmas formában (XML, TXT) is elérhetőnek kellene
lennie;
• külön tartalmi kivonatokat kellene készíteni
automatikus feldolgozásra, a cikk lényeges állításainak szemantikus
web szabványok szerinti kódolásával, nanopublikációs (URL3)
formában;
• automatikusan feldolgozható változatban
mellékelni kellene a táblázatokat;
• az adatokból rajzolt ábrákhoz mellékelni kellene
az adatokat, a képekhez metaadatokat kellene társítani;
• a cikkeket arató robotok számára érthetővé
kellene tenni a cikkhez tartozó állományok viszonyát, azt, hogy gépi
vagy humán felhasználásra valók, továbbá a szövegbányászati
jogosítványokat.
A tartalmak egyszerű szöveges vagy XML-formátumban
való elérhetővé tétele választ adna a terheléssel kapcsolatos
aggodalmakra is. Az öt felsorolt javaslat közül az első és az utolsó
egyszerűen megvalósítható lenne. A hazai Information Bulletin on
Variable Stars számai szabadon letölthetőek LaTeX-formátumban. Az
XML sokkal jobb lenne, de a LaTeX is megfelel a szövegbányászat
céljaira. Mindössze arra lenne szükség, hogy a szüretelő robotoknak
jelezhessük, melyiket töltsék le a rendelkezésre álló formátumok
közül, és melyik a letöltött állomány emberi szemnek szánt
változata. Jelenleg a robotok válogatás nélkül mindent letöltenek.
A többi három javaslat – és az első javaslat XML
opciója – nehezebben megvalósítható. Mind a kiadóknak, mind a
kutatóknak viszonylag nagyobb mértékben változtatni kellene a
jelenleg követett gyakorlaton. Ahhoz, hogy a javaslatok
kivitelezhetőek legyenek, szabványokra volna szükség, és arra, hogy
a műszergyártók és a szoftvergyártók ezeket termékeikbe beépítsék.
Az új formátumokra, szoftverekre, szabványokra való törekvés már egy
idő óta jelen van a tudományban – a bölcsészettudományokat is
beleértve (Kecskeméti, 2014). A javaslatok részben a szövegbányászat
megkönnyítését célozzák – részben a feje tetejéről a talpára
állítják az információfeltárás kérdését. A megfelelően preparált
információban sokkal könnyebb keresni – a Google nyers ereje a
metaadatok alkalmazásával szemben. Ahogy Barend Mons megfogalmazta:
„Minek az információt eltemetni, ha úgyis ki akarjuk bányászni?”
A szövegbányászat nagy mennyiségű, digitális
formában elérhető publikáció feldolgozásán alapszik. A publikációk
begyűjtése történhet a kiadóktól, de repozitóriumokból is. A
repozitóriumok száma örvendetesen nő, tartalmuk gyarapszik itthon
is. Az MTA KIK (Könyvtár és Információs Központ) repozitóriuma – a
REAL – gyarapításánál is szempont a majdani szövegbányászati
felhasználás lehetősége. Egyszerű funkciókat – mint a teljes szövegű
keresés – már használni lehet. A hazai repozitóriumok aggregálásának
első lépése pedig az MTA Számítástechnikai és Automatizálási
Kutatóintézete (SZTAKI) által fejlesztett közös kereső lehet.
Kulcsszavak: könyvtártudomány, információtudomány, szöveg- és
adatbányászat, repozitóriumok
IRODALOM
Dudás Anikó (2013): Hivatkozásokra vezérlő
kalauz – bölcsészet és társadalomtudományok. NETWORKSHOP 2013. •
WEBCÍM
Erdmann, Chris – Grothkopf, Uta (2010):
Next Generation Bibliometrics and the evolution of the ESO Telescope
Bibliography. LISA VI Proceedings, ASP Conf. Ser. 433, 81. •
WEBCÍM
Haeussler, Maximilian – Gerner, M. –
Bergman, C. M. (2011): Annotating Genes and Genomes with DNA
Sequences Extracted from Biomedical Articles. Bioinformatics. 27,
980. •
WEBCÍM
Holl András (2013): Információáradat és
hullámlovaglás. Magyar Tudomány. 4, 473–478. •
WEBCÍM
Kecskeméti Gábor (2014): Electronic
Textual Criticism. In: Dávidházi Péter (ed.): New Publication
Cultures in the Humanities. Amsterdam Univ. Press •
WEBCÍM
Kurtz, Michael J. – Henneken, Edwin A.
(2014): Finding and Recommending Scholarly Articles. In: Cronin,
Blaise – Sugimoto, Cassidy R. (eds.): Beyond Bibliometrics. MIT
Press. •
WEBCÍM
Lagerstrom, Jill (2015): Best Practices
for Creating and Observatory or Telescope Bibliography from the IAU
Commission 5 Working Group on Libraries. LISA VII Proceedings, ASP.
Conf. Ser. 492, 99
Lesteven, Soizick et al. (2010): DJIN:
Detection in Joirnals of Identifiers and Names. LISA VI Proceedings,
ASP. Conf. Ser. 433, 317 •
WEBCÍM
Lisacek, Frédérique – Chichester, C.–
Kaplan, A. – Sándor Á. (2005): Discovering Paradigm Shift Patterns
in Biomedical Abstracts: Application to Neurodegenerative Diseases.
First International Symposium on Semantic Mining in Biomedicine,
Cambridge, UK •
WEBCÍM
Oravecz Csaba – Váradi T. – Sass B.
(2014): The Hungarian Gigaword Corpus. Proceedings of LREC 2014. •
WEBCÍM
Pataki Máté – Micsik A. – Kovács L. –
Szabó M. (2014): KOPI-Fotó: Plágiumkeresés egy lefotózott oldal
alapján. Informatika a felsőoktatásban konferencia, Debrecen, 2014.
augusztus 27–29. •
WEBCÍM
Sándor Ágnes – Vorndan, Angela (2010): The
Detection of Salient Messages from Social Science Research Papers
and Its Application in Document Search. Workshop on Natural Language
Processing Tools Applied to Discourse Analysis in Psychology, Buenos
Aires, Argentina.
Váradi Tamás – Mittelholcz I. – Blága Sz.
– Harmati S. (2014): Magyar társadalomtudományi citációs adatbázis:
A MATRICA projekt eredményei. MSZNY 2014. Magyar Számítógépes
Nyelvészeti Konferencia, Szeged. JATEPress, Szeged, 269–279.
LÁBJEGYZETEK
1 LIBER – Ligue
des bibliothèques européennes de recherche / Association of European
Research Libraries. Az MTA Könyvtár és Információs Központ is a
szervezet tagja.
<
|