Magyar Tudomány • 2016 11 • Dömötör

Bevezetés: adat, adatgyűjtés és adatbázis

A nyelvtörténeti kutatás adatigényes tudományterület: a nyelvtörténész rá van utalva a vizsgált korszakból fellelhető adatállományra (már amennyiben nyelvemlékekkel rendelkező időszakról van szó). Az utóbbi időben a gyűjtött adatok presztízse az elméleti indíttatású nyelvészeti kutatásokban is megnövekedett; gyakran elhangzik: nem helyes ellentétesnek tekinteni az elméleti és az empirikus nézőpontot, hiszen az elméletek éppen az adatokon állnak vagy buknak meg. Az adatgyűjtés népszerűségét nagyban fokozza a lehetőség, ha anélkül is elvégezhető, hogy a munkafolyamatra hosszú hónapokat kellene rászánni. Az elektronikus korpuszok segítségével a felhasználók néhány kattintással gazdag adatgyűjteményre tehetnek szert. A számítógépes technikák kínálta lehetőségek közepette megkerülhetetlen feladat tehát annak az összetett, hosszadalmas (és nem minden fázisában hálás) munkának az elvégzése, amelynek eredményeként előáll egy-egy adatbázis.

Az új adatbázis bemutatkozik

A Történeti magánéleti korpusz (URL1) a magánéleti nyelvhasználathoz legközelebb álló szövegtípusok anyagát dolgozza fel: magánleveleket és bírósági jegyzőkönyveket tartalmaz. Az élőnyelv kiemelkedően fontos terepe a nyelvtörténeti kutatásoknak, hiszen ez az a nyelvi regiszter, amelyben a nyelvi változások megindulnak. Korábbi korokat illetően azonban nyilvánvalóan korlátozott az élőnyelvi anyagok elérhetősége; ezért beszélhetünk esetünkben is csak a magánéleti nyelvhasználathoz legközelebb álló forrásokról. Anyagaink az ilyen jellegű fennmaradt szövegek legkezdetétől a felvilágosodás szimbolikus indulásáig terjedő időszakból származnak. A 15. század végétől – kisszámú szöveggel – a kései ómagyar kort képviselik, a 16. század első harmadától a 18. század második harmadáig pedig bőséges anyaggal reprezentálják a középmagyar kort. A minél szélesebb körű szociolingvisztikai kutathatóság érdekében a források kiválasztásakor a változatosságra törekedtünk: tekintetbe vettük az időbeli, földrajzi, társadalmi és nemek szerinti megoszlást. Ezeket fel is tüntetjük; a pereken az első kettőt, a leveleken pedig a továbbiakat is: a küldő és a címzett társadalmi státuszát, nemét, kettejük viszonyát és a levél keletkezési módját (saját kezű/nem saját kezű).

A jelenleg 6,5 millió karakter terjedelmű adatbázis – cikkünk címének is megfelelően – főúri leveleket és boszorkányperek szövegét tartalmazza, az anyag azonban folyamatosan bővül, s már készen állnak a feldolgozásra más típusú levelezések is (jobbágylevelek, szépírók magánlevelei, peregrinuslevelek), illetve további perek jegyzőkönyvei (úriszéki iratok). Az adatbázis tartalmazza a feldolgozott anyagok eredetijét, egyfajta olvasatát – pontosabban: az eredeti szövegeknek a mai sztenderdhez közelített változatát – és minden szavának szófaji–morfológiai elemzését. Erről a hármasságról alább még szót ejtünk. Keresés mindhárom szinten végezhető; különösen a grammatikai annotációnak köszönhetően kínálkoznak szerteágazó lehetőségek a nyelvész felhasználó számára.

A Történeti magánéleti korpusz jelentőségét kiemeli, hogy ez az első teljes egészében elemzett magyar nyelvtörténeti adatbázis. A korpusz – amely a cikk végén látható linken bárki számára szabadon hozzáférhető – az MTA Nyelvtudományi Intézetének Finnugor és nyelvtörténeti osztályán készült. Alapvető céljai szerint elsősorban a történeti morfológia és szintaxis, a történeti szociolingvisztika, pragmatika, a grammatikalizáció stb. kutatóinak munkáját könnyítheti meg, de haszna a felsőfokú nyelvészeti vagy akár a középfokú nyelvtani oktatásban is megmutatkozhat. A felhasználó tájékozódását a honlapon elhelyezett segédletek próbálják megkönnyíteni (eljárásaink ismertetése; a keresőfelület használati lehetőségeinek bemutatása; a morfológiai címkék rövidítéseinek feloldása).

Amit a korpusz anyagával kapcsolatban mindezen felül fontos szem előtt tartani: szövegkiadásokból dolgoztunk (az idő és a lehetőségek kényszeréből fakadóan), vagyis mindenben ki voltunk szolgáltatva a szövegközlők eljárásainak, döntéseinek. Emiatt anyagaink bizonyos típusú vizsgálatokra nem ajánlhatók (hangjelölés–helyesírás, fonológia és határterületei). Mindig hasznos viszont magukkal a kiadásokkal is megismerkedni; az átfogó anyagismeret szakmai követelménye mellett azért is, hogy szövegközlési módszerüket, apparátusukat is figyelembe lehessen venni. (A könyvek adatai a honlapon megtalálhatók.)

Hogyan készült?

A korpuszépítés folyamatának bemutatására itt csak vázlatszerűen van lehetőség. Az előkészítő folyamatokat – amelyek eredményeképpen elkészül a források digitális szövegváltozata – ezért éppen csak érintjük (anyagkijelölés és -beszerzés, adatrögzítés: gépeléssel vagy szkenneléssel és karakterfelismerő program segítségével, ellenőrzés, korrektúra). Az adatbázis-építés lényegi munkálatai akkor kezdődhetnek, amikor rendelkezésünkre állnak a digitalizált szövegek. Ekkor a következő kézi, illetve számítógépes munkafolyamatok állnak előttünk: tagmondatokra osztás (gépi + kézi); a szövegek normalizálása (kézi); ellenőrzés, javítás (kézi); szófajtani–morfológiai elemzés (gépi); egyértelműsítés (gépi + kézi); utóellenőrzés, javítás (kézi). Ennek eredményeként áll elő a korpusz összes szavának háromféle megjelenítése: az eredeti, a „normalizált” és az elemzett alak. Ahogy már utaltunk rá, ezek mindegyikére rákereshet a felhasználó.

Az alábbiakban a digitalizálásról, az elemzésről és az egyértelműsítésről lesz szó nagyon röviden. (A munkafolyamatok részletesebb bemutatását lásd pl. Dömötör, 2013, 2014; Novák et al., 2015.)

A digitalizálás

A korpuszokat alkotó szövegek eredetileg kéziratos formában maradtak fenn, azonban – ahogy fentebb már említettük – a projektnek nem képezte részét kéziratok feldolgozása, azaz minden esetben nyomtatott szövegkiadásokból dolgoztunk. A szövegek digitalizálását többnyire számítógépes OCR-programok (Optical Character Recognition) alkalmazásával automatikusan végeztünk el. Egyes szövegkiadások esetében nehéz feladatot jelentett a szokatlan karakterek és mellékjel-kombinációk feldolgozása. Ezek konvertálásához újra be kellett tanítani az alkalmazott OCR-programot, hiszen más-más különleges karakterek szerepeltek az egyes anyagokban. Az automatikusan felismertetett szövegben azonban így is számos hiba maradt, ezért minden szöveg eredeti és digitalizált változatát össze kellett hasonlítani, és a beviteli hibákat kézzel javítani.

A normalizálás

Mivel a rendelkezésünkre álló morfológiai elemzőprogram a mai magyar nyelvi sztenderdre lett kidolgozva, és mert általában a gépi elemezhetőség feltétele az egységes íráskép, először azt kellett megoldanunk, hogy a rendkívül nagy változatosságot mutató szövegek megfeleljenek az adott feltételeknek. Vagyis létre kellett hoznunk egy szövegváltozatot, amely mentes azoktól a jellemzőktől, amelyek egyfelől a feldolgozott források helyesírási-hangjelölési sokszínűségéből fakadnak, másfelől dialektális jegyekként, illetve a nyelvtörténeti (elsősorban fonológiai) változások következményeként adódnak. A munkafolyamat során a szövegeket tagmondatokra is bontottuk.

Ha ránézünk például a következő két mondatrészletre – az első egy boszorkányperből, a második egy Telegdy-levélből származik –, egyértelművé válik, miről is van szó: „az Fatens kapvan edgy Lapocka Zaradnokot Beke Istvannak a hatara csapta ugyan pesget az szüri” (normalizálva: „a fatens, kapván egy lapocska zsarátnokot, Beke Istvánnak a hátára csapta; ugyan pezsgett a szűre”); „edig niluan uagjon Knel, hogj tülünk egj mily fóldón Tórókók gjülekeßtek óßue” (normalizálva: „eddig nyilván vagyon kegyelmednél, hogy tőlünk egy mérföldön törökök gyülekeztek össze”). A korpuszépítés folyamatának ez az a szakasza, amely egyrészt alapos nyelvtörténeti felkészültséget igényel (emellett szoros barátságot a nyelvtörténeti, etimológiai, táj- és egyéb szótárakkal, valamint a történeti nyelvtanokkal), másrészt nagy kitartást követel meg, hiszen – a fentebb mondottaknak megfelelően – az összes szöveg összes tagmondatát „le kell fordítanunk” mai magyarra, mégpedig a lehető leghűségesebb módon. A Történeti magánéleti korpusz az első adatbázis, amely magyar nyelvi anyagon ezt a módszert viszi végig. (Hasonló eljárásmódokra nemzetközi szinten lásd Novák et al., 2015, 7–8.) A normalizálást és az ezt követő többszörös javításokat többen végezzük, ezért nemcsak állandóan bővített, pontosított szabályzatra, hanem rendszeres egyeztetésekre is szükség van.

A normalizálás legfőbb elve a „morféma-megmaradás” törvénye: az, hogy a szavakat felépítő, jelentést hordozó egységek, azaz morfémák a normalizálás folyamán ne tűnjenek el, vagy alakuljanak át más morfémákká. A morfémahűség helyes megvalósításához általában alaposan mérlegelnünk kellett az adott korszak nyelvi sajátosságainak és helyesírásának jellegzetességeit. Törekedtünk arra is, hogy a korabeli helyesírás bizonytalanságaiból adódó inherens és ténylegesen feloldhatatlan többértelműségeket lehetőleg ne tüntessük el a normalizálás során. A tőmorfémákat illetően a zuhaj-tól, tyúkmonysütté-től a szerencsít-en, frajcimmer-en át a restáns-ig és a skrupulizál-ig eddig több mint négyezer olyan lexémával találkoztunk, amelyek a mai magyarban nem használatosak; zömükben elavult (képzésformájú) és/vagy nyelvjárási, rétegnyelvi, idegen nyelvből átemelt szavak. De a toldalékmorfémák szintjén is számos, a mai sztenderdben nem élő elemet kell megtartanunk annak érdekében, hogy az elemzőprogram fel tudja őket dolgozni, illetve a felhasználó majd keresni is tudja őket. Ennek értelmében – hogy csak egy nagyon kézenfekvő esetet említsünk – a Váccá mene nem alakítható át Vácra ment alakúra, hiszen a régi és a mai szóelemek (bár funkcióikban hasonlók) különböző nyelvi egységeket tartalmaznak. Az ilyen és ehhez hasonló esetekben az elemzőprogramot kell betanítani, hogy kezelni tudja a maitól eltérő formákat.

Az elemzés

A számítógépes nyelvészet egyik alapvető feladata a szóalakok automatikus alaktani elemzése. Ennek során az elemzőprogram a szavakhoz

meghatározza azok szótövét, annak szerkezetét, szófaját és a szóban szereplő toldalékokat. A lentebbi példákban látható morfológiai címkék ezeket az információkat kódolják. A [N.Pl.Acc] címke jelentése például, hogy az adott szó főnév (N), többes számú (Pl) és tárgyesetben van (Acc). Az ilyen elemzőprogramok számára szükség van egy tőtárra és egy toldaléktárra, amelyekben az adott nyelvben előforduló lehetséges szótövek, illetve toldalékok vannak eltárolva. Ezen kívül a programban megvalósított alaktani leírás tartalmazza a szavak toldalékolását meghatározó paradigmákat, illetve a szavak felépítését leíró szabályrendszert.

A digitalizált és normalizált szövegek automatikus elemzésére a Humor magyar morfológiai elemző (Novák, 2003) egy erre a célra kibővített változatát alkalmaztuk. Ehhez ki kellett bővíteni a program tőtárát és toldaléktárát az időközben kihalt paradigmákkal, szótövekkel és toldalékokkal, illetve a toldalékok alakváltozataival. Az alábbiakban az utóbbiakra láthatunk példákat (félkövérrel kiemelve). A példákban az egyes szavakat négy jellemzőjük írja le: az eredeti alak, a normalizált alak, a szótő és a morfológiai címke. Az utóbbi kettő együtt adja a morfológiai elemzést (illusztrációink egy részében egymás alatt, egy részében egymás mellett láthatók) (1. ábra).

A elemző toldaléktárába ötven új toldalékot vettünk fel (ezek alakváltozatait, allomorfjait nem számolva). Az alábbiakban olyan toldalékmorfémákra láthatunk példákat az igei alaktan köréből (félkövérrel kiemelve), amelyek a mai magyarban már nem használatosak (2. ábra).

A toldalékok és paradigmák leírásánál nagyságrendileg több munkát jelentett azoknak a töveknek a felvétele, amelyek a mai magyar elemző lexikonából hiányoztak. Sok esetben a tő ugyan megvolt, de a régi szövegekben más szófajú (is) lehetett, mint ma, illetve bizonyos konstrukciókban másképp kell elemezni őket, mint a mai megfelelőjüket. Ilyen például a régi névutós szerkezetek egy része, amelyben a névutó a -nak /-nek ragos birtokos szerkezethez hasonló formában egyeztetve van a főnévvel. Ebben a ragos névutó elemzése más, mint az azonos alakú, a mai magyarban is létező névmást tartalmazó (ő)miatta alaké (3. ábra).

Az egyértelműsítés

A szövegek elemzését egyértelműsíteni is kellett, mivel maga az elemző az adott szóalak minden lehetséges elemzését megadja. Ezek általában mind helytálló elemzések a szót önmagában vizsgálva, a szövegkörnyezet alapján viszont egyértelműen ki lehet választani, hogy az adott kontextusban melyik elemzés a helyes. Ráadásul a történeti szövegekben a többértelműségek aránya nagyobb, mint a mai szövegek sztenderd elemzővel való elemzése esetében. Ez egyrészt amiatt van, mert az elemző lazább, megengedőbb (ez a mai sztenderdben elő nem forduló szerkezetek elemzéséhez szükséges), amely a korpusz ritkább szerkezeteit olyan helyeken is felismerni véli, ahol nem azok szerepelnek, másrészt pedig az eldönthetetlen többértelműségek ilyenként való címkézéséből fakad.

A morfológiai annotáció egyértelműsítésében a munka oroszlánrészét géppel végeztük. Sztenderd szövegek esetén ugyanis erre a feladatra is létezik számítógépes megoldás, így csupán adaptálni kellett egy ilyen meglévő programot erre a nyelvváltozatra. Az ó- és középmagyar morfológiai elemző elemzéseit felhasználva a PurePos nevű statisztikai egyértelműsítő eszközt (Orosz – Novák, 2013) használtuk erre a célra. A program már elemzett és egyértelműsített szövegekből megtanulja, hogy milyen szövegkörnyezetben melyik elemzés a legvalószínűbb a morfológiai elemző által előállított lehetséges elemzések közül. Természetesen minél több tanítóanyagból tanul a rendszer, annál jobban működik, ezért a programot inkrementális módon egyre több egyértelműsített és ellenőrzött szöveggel újratanítottuk.

Az így egyértelműsített szövegek kézi ellenőrzéséhez (illetve az első szövegek még teljesen manuális egyértelműsítéséhez) olyan webes felületet hoztunk létre, amelyen a téves egyértelműsítések, illetve normalizálási hibák nagyon hatékonyan javíthatók. Az automatikusan kapott elemzés helyett úgy lehet másikat választani, hogy az egérmutatót a szó fölé húzzuk, és a megjelenő listából másikat jelölünk ki. Kézzel javítható az eredeti és a normalizált szóalak (és akár az elemzés is). Az eredeti vagy a normalizált szóalak javítása után a szó a programmal azonnal újraelemeztethető. Az automatikusan megjelenő lista olykor csak két-három elemből áll (ilyenkor gyorsan lehet haladni a kézi egyértelműsítéssel) (4. ábra).

Egyes igei alakok esetében viszont – főként a sok elvileg lehetséges igenévi, szenvedő és műveltető szerkezet miatt – meglehetősen hosszas lista áll előttünk (ilyenkor tovább tart, amíg sikerül kiválasztani a szövegkörnyezetnek megfelelő alakot; a lentebbi szövegdobozból például a 15. sort, azaz a tárgyas ragozású, múlt idejű, egyes szám második személyű formát) (5. ábra).

A keresőfelület; keresési lehetőségek

Végül a normalizált és elemzett szövegek fölé egy keresőfelületet hoztunk létre. A szövegekben való keresést támogató korpuszkezelő (Petersen, 2004) nemcsak azt teszi lehetővé, hogy a felhasználó különböző nyelvtani szerkezetekre keressen a szövegekben példákat (amit a hozzáadott morfológiai elemzés tesz lehetővé), hanem azt is, hogy a munkatársak a kereső találataiban is azonnal kijavíthassák az annotációban vagy a szövegben fellelt hibákat. A hibakeresés és -javítás egyik hatékony módja, amikor a korpuszban kifejezetten olyan szerkezeteket keresünk, amelyek valószínűleg hibásak, és a valóban hibás találatokat azonnal javítjuk. A javított korpuszt ezután exportálni lehet, és az automatikus elemzőprogramot a javított korpusszal újratanítani. Bár a korpusz nem tartalmaz kifejezett mondattani elemzést, a morfológiai annotáció alapján a mondattani szerkezetek nagy része is hatékonyan megkereshető. A keresőben kellő szaktudással jól megfogalmazhatók olyan lekérdezések, amelyek segítségével az ó- és középmagyar időszak mondattana iránt érdeklődő kutatók is eredményesen használhatják a korpuszt. Ehhez bonyolultabb lekérdezéseket kell összeállítani, amelyek megfogalmazásához érdemes megtanulni a keresőhöz kifejlesztett speciális lekérdezőnyelvet.

A kereső lehetővé teszi, hogy mondaton, tagmondaton vagy adott metaadatokkal megjelölt tulajdonságú szövegen belül keressünk, illetve akár többmondatos egységek is lekérdezhetők. A kereső által megjelenített találati egység a normalizált szövegekben mondatként kijelölt szövegszakasz. A tagmondatok lehetnek nem folytonosak (ez az alárendelő szerkezetek esetén gyakran előfordul, de olykor a főmondat vagy egy mellérendelő szerkezet valamelyik eleme ékelődik be). Az alábbi példa olyan találati mondatot mutat be, amelyben több megszakított tagmondat is szerepel (1. ábra).

Az egyes találatok fejlécére kattintva új böngészőablakban megjeleníttethető az adott mondatot tartalmazó teljes dokumentum, amelyen belül a keresőkifejezés által illesztett szövegrész ugyanúgy kiemelt, mint a mondatokat tartalmazó találati listában. A kiemelt részre rá lehet keresni a teljes dokumentum szövegében is, így a találat szélesebb kontextusa könnyen áttekinthető.

A keresőrendszer lehetővé teszi a találatok egyszerűsített, csak az eredeti változatot tartalmazó megjelenítését is. Ennek az egyszerűsített megjelenítési formának a bevezetését az tette szükségessé, hogy a rendszer által alapesetben visszaadott, annotációt is tartalmazó reprezentáció nem jelenik meg megfelelően az általánosan használt szövegszerkesztő programokba átmásolva. Az egyszerűsített kimenet ezzel szemben szövegszerkesztőbe másolható, így a korpuszt használó kutatók könnyen idézni tudják a találatokat a kutatásaikat bemutató tanulmányokban. További lehetőségként a szövegkörnyezet teljes mellőzésével megjeleníthető a keresőkifejezésre illeszkedő szavak, kifejezések gyakoriság szerint rendezett listája is.

Összefoglalás

Cikkünkben bemutattuk egy ó- és középmagyar történeti korpusz létrehozásának lépéseit, melyek során a nyelvészeti feladatok egy részét kézzel, más részét pedig a nyelvtechnológia eszközeit felhasználva automatikusan végeztünk. Az adatgyűjtés és a nyersanyagok digitalizálása után elkészült a szövegek mai magyar helyesírásnak megfelelő átirata és morfológiai elemzése. Az adatbázist egy webes felületen keresztül tettük elérhetővé és kereshetővé, lehetővé téve a kutatók és a nagyközönség számára is a feldolgozott korszakok nyelvi kincsei között való kutakodást.

A munkálatot az OTKA K 81189 és 116217 sz. pályázata támogatta, illetve támogatja.

Kulcsszavak: elektronikus adatbázis, nyelvtörténet, ó- és középmagyar kor, magánéleti regiszter, morfológia, elemzőprogram, keresőfelület

IRODALOM

Dömötör Adrienne (2013): Nyelvtani elemzésekkel ellátott online szöveggyűjtemény. Nádasdy-levelektől a boszorkányperekig. Élet és tudomány. 43, 1363–1365.

Dömötör Adrienne (2014): Az ó- és középmagyar kori magánéleti nyelvhasználat morfológiailag elemzett adatbázisa. In: Fazakas Emese – Juhász D. – T. Szabó Cs. –Terbe E. – Zsemlyei B. (szerk.): Tér, idő, társadalom és kultúra metszéspontjai a magyar nyelvben. ELTE Magyar Nyelvtörténeti, Szociolingvisztikai, Dialektológiai Tanszék– Nemzetközi Magyarságtudományi Társaság, Budapest–Kolozsvár, 11–21.

Novák Attila – Gugán K. – Varga M. – Dömötör A. (2015): Creation of an Annotated Corpus of Old and Middle Hungarian Court Records and Private Correspondence. Kézirat. • WEBCÍM

Novák Attila (2003): Milyen a jó humor? In: Alexin Zoltán – Csendes Dóra (szerk.): Magyar Számítógépes Nyelvészeti Konferencia. Szegedi Tudományegyetem, 138–145. • WEBCÍM

Orosz György – Novák Attila (2013): PurePos 2.0: A Hybrid Tool For Morphological Disambiguation. In: Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP 2013), Hissar, Bulgaria, 2013. Incoma, Shoumen. 539–45. • WEBCÍM

Petersen, Ulrik (2004): Emdros – A Text Database Engine for Analyzed or Annotated Text. In: Proceedings of the 20th International Conference on Computational Linguistics, Volume II. 1190–1193. DOI:10.3115/ 1220355.1220527 • WEBCÍM