Annak érdekében, hogy az informatikai eszközök
nagyobb részt tudjanak vállalni a művek feldolgozásában, illetve
nehezen kivitelezhető, vagy ma még talán meg sem fogalmazott kutatói
feladatokat is meg tudjanak oldani a jövőben, az általuk nyújtott
szolgáltatások minőségét és összetettségét kell javítanunk. Mivel a
számítógépek addig a mértékig tudnak a segítségünkre lenni,
amennyire képesek „megérteni” a tárolt adatokat és az alkalmazott
kutatói módszereket, így több tudással kell ellátnunk őket mind a
művekre, mind a kutatásokra vonatkozóan, és ezekre épülve új
számítási módszereket kell számukra kidolgoznunk.
Az egyik jelentős eredmény ezen a területen a már
említett TEI XML formátumhoz kapcsolódik, amely lehetővé teszi a
szöveg strukturális felépítésével, illetve egyes tartalmi elemeivel
kapcsolatos tudás gépi reprezentációját. Ha egy irodalmi művet
egyszerű szövegként tárolunk a számítógépen, akkor nehéz olyan
programot írni, amely képes például a benne található földrajzi
hivatkozásokat GPS-koordináták formájában meghatározni. Amennyiben
azonban TEI-formátumban tároljuk, és a földrajzi hivatkozásokat
jelöljük a GEO-címke segítségével, akkor az így tárolt művekből
könnyen kinyerhetők a koordináták. Az így bevitt tudás más elemekkel
összekapcsolva további módokon is felhasználható a programjainkban.
Az irodalmi művekről nemcsak a művek szövegének
TEI-címkézésével, hanem másféleképpen is rögzíthetünk tudást. A
művek egészéhez is rendelhetünk adatokat keletkezésükről,
szerzőjükről és egyéb tulajdonságaikról. Erre a célra különféle
részletezettségű megoldásokkal találkozhatunk (pl. RDFa, Dublin
Core, HTML microformats stb.). Az így tárolt adatok egy nagyobb
műgyűjtemény feldolgozásakor segíthetnek a keresésben, az időrendi,
szerzőségi és más vizsgálatok végrehajtásában. (Ezeket a módszereket
egyre szélesebb körben alkalmazzák a web rendszereiben is.)
Lehetőségünk van arra is, hogy leírjuk a számítógép számára a művek,
részeik és a bennük található személyek, földrajzi helyek stb.
viszonyát más entitásokhoz. Ezen a területen például RDF-leírásokat
és OWL-ontológiákat alkalmaznak az informatikai rendszerek. Az így
létrehozott kapcsolati hálók – különösen egymástól független
adatforrások összeolvasztásával – sok érdekes és újszerű vizsgálat
alapját képezhetik. Végezetül akár a művekben leírt információkat
(tudást) is átalakíthatjuk valamilyen számítógépes reprezentációvá
(tudásbázissá). Ezen a téren még sok felfedeznivaló vár a kutatókra.
A történeti és irodalmi szövegek nyelvi elemzése
és normalizálása is aktív kutatási terület a számítógépes nyelvészet
keretében (pl. Novák et al., 2013). A valószínűségi tudásmodelleket
építő és használó elemző- és jelölőrendszerek minősége ma még nem
tökéletes, de további tudás bevitelével módszereik javíthatónak
tűnnek. A régi szövegek formai sokszínűségéből fakadó
bizonytalanságok kibővített írói szótárak létrehozásával és
alkalmazásával kezelhetők (Kiss, 2012). Ezek a klasszikus szótári
feladatok mellett informatikai rendszerek által megkívánt adatokat
és annotációkat is tartalmazhatnak, így növelve azok hatékonyságát.
A digitális írói szótárak létrehozása és alkalmazása a szövegek
normalizálása és elemzése mellett jelentősen növelheti a szövegtárak
keresőrendszereinek pontosságát, adataik gazdagíthatják a műveket
megjelenítő rendszerek szolgáltatásait, és a bennük tárolt tudás
önálló elemzések forrása is lehet a jövőben.
A tudásalapú szövegkezelés kihívásai
Az irodalmi művekkel kapcsolatos (emberek által birtokolt) tudás
számítógépre vitele a tudásmérnökség feladatkörébe tartozik. Ennek
során számos nehézséggel kell szembenézni.
A tudásbevitel egyszerre igényli a szakterület
művelőinek (irodalmárok, nyelvészek, történészek) és a tudásalapú
rendszerek kialakításában és használatában jártas szakemberek
együttműködését. Ráadásul ez utóbbi terület nem tartozik az
informatika széles körben ismert és művelt ágai közé.
Az egyes tudásbeviteli módszerek önmagukban is
számos problémát hordoznak, és munkaigényük jellemzően lényegesen
nagyobb, mint a szinte teljesen automatizálható, statisztikai
módszerekkel dolgozó rendszereké. Például egy irodalmi mű
elektronikus formára alakítása automatikusan elvégezhető, a
karakterfelismerés hibái egy korrektúrázási fázisban könnyen
javíthatók. Ezzel ellentétben a TEI XML címkézés kialakítása
manuális munka, ráadásul speciális szakértelmet (összetett
címkekészlet ismeretét) megkívánó folyamat. Bár az XML-szerkesztő
szoftverek számos ellenőrzési lehetőséget kínálnak, a bevitt tudás
tartalmi ellenőrzésére sok esetben csak emberi olvasással és
értelmezéssel van lehetőség. Hasonlóképpen az irodalmi művekben
található hivatkozások RDF-formátumú adatokká alakítása is nehézkes,
kevesek által ismert és alkalmazott eljárás.
Ezek a problémák nagyban hátráltatják és sok
esetben meg is akadályozzák a tudásalapú szövegkezelés alkalmazását,
az így megvalósítható informatikai szolgáltatások kialakítását, az
ezekre épülő kutatások elvégzését, így végső soron új tudományos
eredmények elérését. Ezen kihívások leküzdése az informatikus és a
bölcsész szakemberek közös feladata. Az MTA BTK Irodalomtudományi
Intézete és a Budapesti Műszaki és Gazdaságtudományi Egyetem
Méréstechnika és Információs Rendszerek Tanszéke által közösen
végzett kutatásokban ezen a téren kívánunk eredményeket elérni.
A digitális Mikes kritikai kiadás
és a DHmine kutatói rendszer
Az elmúlt években elkészült a Mikes-életmű digitális feldolgozása,
valamint az XML-alapú Mikes-szótár (Kiss, 2012), amely a művek
teljes szóanyagát tartalmazza (URL4).
A következő célkitűzésünk Hopp Lajos kritikai megjegyzéseinek
számítógépes feldolgozása, strukturált tárolása és a benne található
egyes tudáselemek gépi reprezentációja.
Első lépésként megtörtént a kritikai kiadás
digitalizálása és korrektúrázása. A Mikes-művek alapszintű
TEI-címkézéséhez képest a kritikai megjegyzéseket egy részletesebb
címkézéssel láttuk el, mind strukturális elemeikre, mind a bennük
található hivatkozásokra vonatkozóan. A folyamat felgyorsítására egy
automatizált XML-címkézőt fejlesztettünk, amely képes volt a
kritikai megjegyzések szerkezetének pontos felismerésére és a
hivatkozások egy jelentős részének jelölésére is. Jelenleg a
hivatkozások (különösen a földrajzi entitások, személynevek és
irodalmi művek) felismerésének javításán dolgozunk további elemzési
módszerek kidolgozásával.
Az XML-formátumú kritikai kiadás létrehozása után
a következő lépés a művek és a kritikai annotációk egységes webes
megjelenítésének kidolgozása lesz, majd a jelölt tartalomelemek mint
tudásdarabkák tudástárrá szervezése és összekapcsolása más
adatforrásokkal (például Sztaki LOD és DBpedia). A már meglévő
kritikai megjegyzések digitalizálása és tudástárrá formálása mellett
új annotációk készítéséhez is szeretnénk megoldást nyújtani.
A BME által kidolgozott DHmine-rendszer (URL5)
nemcsak a digitalizálás és tudástárépítés egyes részfeladatainak
végrehajtását tűzi ki célul, hanem kutatócsoportok belső
együttműködésének támogatását (fórumrendszerrel, felhőalapú
tárhellyel és tartalommegosztással) és terveink szerint a tudományos
eredmények adatainak (DataCite-referenciákkal rendelkező)
közzétételét is.
Kulcsszavak: informatika, irodalomtudomány, tudásalapú
rendszerek, szövegbányászat, szövegelemzés, XML
IRODALOM
Bartók István – Golden D. – Horváth I. –
Káldos J. – Mayer Gy. – Mártonfi A. – Tóth T. – Vadai I. – Vaskó P.
(2006): Digitalizálás, Magyar Tudomány. 167, 7, 831–836. •
WEBCÍM
Berners-Lee, Tim – Hendler, J. –
Lassila, O. et al. (2001): The Semantic Web. Scientific American.
284, 5, 28–37. •
WEBCÍM
Burnard, Lou – Rahtz, Sebastian (2002):
The Role of the Text Encoding Initiative (TEI) in the Authoring and
Interchange of XML Documents. In: ELPUB. •
WEBCÍM
Busa, Roberto (1980): The Annals of
Humanities Computing: The Index Thomisticus. Computers and the
Humanities. 14, 2, 83–90.
Clement, Tanya (2014): Text Analysis,
Data Mining, and Visualizations in Literary Scholarship. In: Price,
Kenneth M. – Siemens, Ray (eds.): Literary Studies in the Digital
Age. Modern Language Association of America •
WEBCÍM
Fox, Edward A. – Sornil, Ohm (2003):
Digital Libraries. In: Encyclopedia of Computer Science, 576–81.
John Wiley and Sons Ltd., Chichester, UK •
WEBCÍM
Kiss Margit (2012): A digitális
Mikes-szótár. Magyar Tudomány. 173, 3, 279–284. •
WEBCÍM
Mártonfi Attila (2014): Számítógép és
írói szótár – különös tekintettel a készülő József Attila-szótárra.
MAGYAR NYELV. 110, 1, 30–46. •
WEBCÍM
Mosteller, Frederick – Wallace, David L.
(1963): Inference in an Authorship Problem. Journal of the American
Statistical Association. 58, 302, 275–309. •
WEBCÍM
Novák Attila – Orosz Gy. – Wenszky N.
(2013): Morphological Annotation of Old and Middle Hungarian
Corpora. In: Proceedings of the 7th Workshop on Language Technology
for Cultural Heritage, Social Sciences, and Humanities, 43–48. •
WEBCÍM
Zimányi Magdolna (2001): A Magyar
Elektronikus Könyvtár. Magyar Tudomány. 2 •
WEBCÍM
|