Magyar Tudomány • 2014 9 • Váradi

1. Bevezetés

A számítógépek megjelenésével szinte egy időben felmerült azok alkalmazása a nyelv elemzésére. A számítógépes nyelvészet hőskorában elsősorban a gépi fordítás felé fordult a figyelem, de miután az ezzel kapcsolatos várakozások túlzottnak bizonyultak a kor technológiai szintjén, ennek következtében a gépi fordítás támogatása egy időre visszaesett. A természetes nyelv számítógépes vizsgálata azonban tovább folytatódott a dokumentosztályozás, az információkinyerés, az ember–gép párbeszéd és sok más egyéb területen. Az 1960-as években, de különösen a 80-as évektől a számítógépek tömeges elterjedésével új távlatok nyíltak a nyelv empirikus vizsgálata terén. Egy új ága is született a nyelvészetnek, a korpusznyelvészet, amely a nyelvhasználat számítógépes modellezését tűzte ki célul. Ehhez nagyméretű szöveges adatbázisokat (ún. korpuszokat) építettek, amelyek egy időben és térben meghatározott közösség nyelvhasználatának nyelvileg elemzett reprezentatív mintáját jelentik.

A számítógépek teljesítményének növekedése, a szövegadatbázisokból, korpuszokból automatikusan tanulni képes, gépi tanuló eljárások kifejlesztése a számítógépes nyelvészet, a nyelvtechnológia ugrásszerű fejlődéséhez vezetett, és napjainkban tovább szélesíti, alakítja át a(z elméleti) nyelvészeti kutatások spektrumát és módszertanát is.

A számítógéppel végzett, illetve segített nyelvészeti kutatások, a nyelvtechnológiai alkalmazások alapvető feltétele a naprakész, a nyelvhasználatot reprezentatív módon tükröző, géppel olvasható és feldolgozható nyelvi adat, mely minden elméleti és alkalmazott kutatás kiindulópontja, a nyelvtechnológiai alkalmazások fejlesztésének nélkülözhetetlen nyersanyaga. Az ezeket az adatokat tartalmazó nyelvi adatbázisok pontos, számszerűsíthető képet adnak a nyelvhasználatról, egyben megkerülhetetlen forrásai és bemeneti adatai nyelvfeldolgozó algoritmusoknak, valamint értékes információt hordoznak az adott nyelvhez kötődő kultúra kutatóinak, társadalomtudósainak számára is.

Az 1998 és 2001 között készült Magyar Nemzeti Szövegtár (MNSz) (URL1) a 90-es évek második felének nyelvhasználatából merített reprezentatív mintával a magyar nyelv első, az akkori gyakorlatban is jelentős méretűnek számító, nyelvileg elemzett korpusza volt, amely hálózati lekérdező felületen bárki számára szabadon hozzáférhető (Váradi, 2002). A munkálatok kezdetétől számított, lassan tizenöt év múltával nyilvánvalóvá vált, hogy általában a számítógépes korpuszokkal, így az MNSz-szel szemben támasztott igények jelentős mértékben változtak, és több szempontból megnövekedtek, különösen az alábbi három területen:

• Minőség: a számítógépes nyelvészeti technológia gyors fejlődése miatt az MNSz-ben alkalmazott számítógépes nyelvi elemzés technológiája, pontossága és a nyelvi információ (re)prezentációjának módszere elmarad a ma nemzetközi sztenderdnek tekinthető szinttől.

• Terjedelem: az első változatban előirányzott¹ 100 millió szavas terjedelem ma már nem tekinthető jelentősnek. Az adatközpontú módszerek/alkalmazások elterjedése és sikeressége a számítógépes nyelvfeldolgozás területén a nemzetközi gyakorlatban egyre elterjedtebbé, gyakorlatilag kívánatossá tették a milliárd szavas nagyságrendű korpuszok kifejlesztését (Parker et al., 2011), mivel az adatok ugrásszerű növekedése a rajtuk alapuló alkalmazások minőségének javulását vonja (vonta) maga után.

• Reprezentativitás, lefedettség: a nyelvhasználat pontos, akár a nyelvtörténeti kutatások igényeit is kielégítő dokumentálása egyrészt újabb és újabb állapotfelvételt (adatgyűjtést) igényel, másrészt a nyelvi változatok széles skáláját kell hogy képviselje. Ebből a szempontból például az MNSz kritikus hiányossága a beszélt nyelvi adatok teljes hiánya.

2. Előzmények

Külföldi kutatások eredményeként már a 60-as évektől rendelkezésre állnak mai mértékkel természetesen kisméretűnek számító, de gondosan összeállított korpuszok (lásd Brown-korpusz [Kučera és Francis, 1967]). A 90-es évek jelentős produktuma az MNSz-nek is néhány szempontból mintául szolgáló British National Corpus, és ettől az időszaktól folyamatosan készültek további nemzeti korpuszok. A nagyméretű korpuszokban reprezentált nyelvi információ gépi előállítására irányuló kutatás gyakorlatilag egy külön számítógépes nyelvészeti „iparág”, a különféle annotáló és egyértelműsítő rendszerek fejlesztésének kialakulásához vezetett. Ebbe a sorba illeszkedett az MNSz első változata is, ami az ilyen nagyságrendű korpuszokhoz hasonlóan automatikus morfoszintaktikai annotációt kapott a Nyelvtudományi Intézetben kifejlesztett nemzetközi szinten is élvonalbeli pontossággal működő eljárás segítségével (Oravecz – Dienes, 2002).

Az MNSz első változatának elkészülte óta mind a korpuszok mérete, mind az alkalmazott gépi feldolgozás minősége és részletessége megváltozott. Ma már nem ritkák a több százmillió szavas adatbázisok a Linguistic Data Consortium archívumában, és időközben ebben a nagyságrendben elkészült a magyar Webkorpusz is (Halácsy et al., 2003).² A feldolgozás tekintetében hatékonyabb, pontosabb és részletesebb nyelvi elemzést adó eljárások, alkalmazások kifejlesztését célzó kutatások kezdődtek meg magyar nyelvre is (Halácsy et al., 2006, 2007; Trón et al., 2005).

A jelentős méretű korpuszokban tárolt nyelvi elemzés részletessége automatikus annotáció esetén általában a morfológia szintjén marad, szintaktikailag elemzett, ma már magyar nyelven is létező adatbázisok az elfogadható elemzési pontosság érdekében (géppel segített) kézi annotációval készülnek (Csendes et al., 2004).

3. Célok

Az MNSz az eddigi használat tapasztalatait figyelembe véve igen sikeres nyelvi erőforrásnak tekinthető. A Kárpát-medencei Magyar Nyelvi Korpusz projekt keretében 2005 novemberére a határon túli nyelvváltozatokkal 187 millió szóra kibővült korpusznak jelenleg több mint 8000 regisztrált felhasználója van, az MNSz-ben található nyelvi adatok alapján több tucat tanulmány készült. Mindezek ellenére tagadhatatlan, hogy a mai kor követelményeinek fényében az MNSz elavulttá vált.

Az új változat (MNSz2) kifejlesztésének célja a Bevezetésben említett hiányosságok kiküszöbölésével olyan magas minőségű, megnövelt és lefedettségét illetően kibővített komplex nyelvi adatbázis létrehozása volt, amely hatékonyan képes kiszolgálni a ma felhasználójának, kutatójának igényeit. Ennek érdekében a fenti felosztás szerint a célkitűzések az alábbi pontokban foglalhatók össze:

• Minőség: a korpusz anyagának minden feldolgozási és elemzési lépésében új, korszerű számítógépes nyelvészeti technológia felhasználása az utóbbi évek vonatkozó fejlesztéseinek figyelembevételével és a magyar nyelvre való alkalmazásukra irányuló célzott kutatással.

• Terjedelem: a korpusz anyagának bővítése minimum 1000 millió szóra.

• Reprezentativitás, lefedettség: újabb mintavétel a mai magyar nyelvhasználatnak a Szövegtárban eddig is szereplő, valamint további változataiból. Jelentős hozzáadott értékként a beszélt nyelvi megnyilatkozások lejegyzett formátumát tartalmazó korpuszrész kialakítása, valamint mintavétel a közösségi média szövegeiből.

4. Fejlesztés

Az MNSz2 esetében az MNSz első változatában alkalmazott technológia minden részletében felülvizsgálatra, átdolgozásra, továbbfejlesztésre került a nemzetközi eredmények és a magyar nyelvre irányuló friss kutatások alkalmazásával. Ez a munka a korpuszépítés minden fázisában jelentkezett.

4.1. Anyaggyűjtés • Szöveges adatok összegyűjtésére ebben a nagyságrendben a kézenfekvő módszer vagy az internet bizonyos tartományainak végigpásztázása és az ott talált anyagok valamilyen heurisztikus szűréssel segített, de alapjában véve válogatás nélküli letöltése, vagy nagy mennyiségű sajtóanyag beszerzése. Kizárólagos alkalmazás esetén mindkét módszernek vannak egyértelmű hiányosságai, ha a cél egy kiegyensúlyozott, elegendő metaadattal ellátott korpusz összeállítása. Előbbi módszer a szűrés ellenére is gyakran nagyon zajos adatot eredményez, melyhez jellemzően az az alapvető bibliográfiai információ is hiányzik, amely nélkül alapos nyelvészeti kutatások sokszor nemigen végezhetők.³ Az utóbbi módszerrel előálló korpusz szembetűnő hátránya a reprezentativitás hiánya.

Ezért jelentős munkát kellett fordítani a korpusz anyagának kontrollált és az adott forráshoz illeszkedő begyűjtésére: a közösségi médiából származó szövegek automatikus monitorozására, számítógéppel feldolgozható és metaadatolható eredményt adó letöltésére, a különböző forrásgazdákkal történő megegyezésre az általuk birtokolt anyagok archívumához való hozzáféréshez. Azok a források, melyek már alapesetben valamilyen (félig) strukturált, jól feldolgozható formátumban álltak rendelkezésre, előnyt élveztek a vegyes formátumú, esetleges összeállítású archívumokkal szemben. A gyűjtés nagyságrendje természetesen eleve kizárta a kézi beavatkozást és a nagyon zajos kimenetet adó módszereket, mint a dokumentumok szkennelése, illetve optikai karakterfelismerést igénylő dokumentumok felhasználása. Az a manuális munkaerő, ami ezeket a módszereket alkalmazhatóvá tette volna, messze nem állt rendelkezésre.

Fontos megjegyezni, hogy a Szövegtár nem hűséges lenyomata, archívuma az egyes begyűjtött forrásoknak, hanem elsősorban számítógépes nyelvészeti korpusz, nyelvi adatok gyűjteménye. Emiatt természetesen előfordulhat, hogy bizonyos forrásokból egyes túlságosan zajos részletek hiányoznak. Ezek mennyisége azonban az adott forrás rendelkezésre álló anyagához, és persze a teljes korpusz méretéhez képest elenyésző, így a korpuszon alapuló vizsgálatok, alkalmazások eredményét, működését nem befolyásolja.

Az anyaggyűjtés során elkerülhetetlenül szembesülünk az utóbbi időben egyre hangsúlyosabb szerzői jogokkal kapcsolatos kérdésekkel. Ekkora nagyságrendben lehetetlen vállalkozás minden adatgazdától (ha egyáltalán beazonosítható és megtalálható) a lehető legszabadabb felhasználói jogok megszerzése. Az MNSz2 így alapesetben továbbra is egy felhasználói felületen férhető hozzá (lásd az 5. részt), egyéb típusú hozzáféréshez külön megállapodás keretében van lehetőség.

Az az előzetes várakozás, hogy a tizenöt évvel ezelőtti helyzethez képest a szöveges dokumentumok kezelése és tárolása a nemzetközi szabványokhoz közelítve sokat javul, és ez majd nagyban megkönnyíti a korpusz anyagának összegyűjtését, sajnos egyáltalán nem igazolódott be; jelenleg is sok probléma adódott a forrásszövegek hozzáférhetőségével és eredeti formátumával. Ehhez adódott még egy sajnálatos további hátráltató tényező: számos olyan adatforrás, amelyeknek a szövegei az MNSz első változatának szerves részét alkotják, nem járult hozzá az azóta keletkezett szövegeik felvételéhez az MNSz2-be. Ennek valódi okait csak találgatni lehet, szomorú következménye viszont az, hogy a nyelvhasználat bizonyos jelentős szegmentumai a mostani mintavételből teljesen kimaradtak.

A korpusz jelenlegi összetételét az 1. táblázat foglalja össze. Első pillantásra is látszik, hogy a sajtónyelvi anyag továbbra is domináns, érdemes azonban észrevenni, hogy minden nyelvváltozat anyaga minimum megduplázódott a korábbi változathoz képest, valamint megjelent egy új „műfaj”, a(z átírt) beszélt nyelvi anyag is.

4.2. Előfeldolgozás, szövegnormalizálás • Az előfeldolgozás és normalizálás során a cél a forrásszövegek olyan szabványos elektronikus formátumba alakítása, mely hatékonyan feldolgozható bemenetként szolgál a nyelvi elemzőlánc számára. Ebben a lépésben történik a forrásformátumokból a hasznos szöveges tartalom kinyerése és az alapvető dokumentumstruktúra azonosítása, a karakterek normalizálása.⁴ A későbbi feldolgozás szempontjából fontos lépés a nyelvazonosítás, a nem magyar nyelvű szövegrészek kiszűrése, illetve megjelölése. Az itt alkalmazott technológia (Lui – Baldwin, 2012) meghatározott küszöbhossznál (néhány tucat karakter) nagyobb bekezdésnyi szövegrészeken gyakorlatilag 100%-os pontossággal működik.

A gondos forrásválogatás ellenére a szövegek között mindig megjelennek (közel) duplikátumok. Ezek detektálása az MNSz2 esetében annál komplexebb kérdésnek bizonyult, hogy például egy, az internetről letöltött szövegeken alapuló korpuszokra kifejlesztett sztenderd megoldást közvetlenül alkalmazni lehessen (Pomikálek, 2011). A források változatossága (a közösségi média letöltött szövegeitől a hivatalos, jogi anyagokon keresztül a sajtószövegekig és a szépirodalomig) célzott módszer alkalmazását tette szükségessé, ami egy általános eszközkészleten alapult (Kupietz, 2005), de az egyes szövegtípusokra szabott automatikus detektálást manuális ellenőrzésnek is kellett követnie, hogy megállapíthassuk, vajon valódi duplikátumokról van-e szó, vagy olyan ismétlődő szövegegységekről, melyek szerves tulajdonsága az ismétlődés, így adattorzítást éppen az eltávolításuk okozott volna (lásd például az időjárás-jelentések szövegei).

4.3. Elemzés és annotáció • A nyelvi feldolgozás minden szintjén jelentős minőségi javulást eredményező új, illetve továbbfejlesztett eszközöket használtunk fel, újraterveztük az automatikus egyértelműsítő architektúrát, illetve a kapott morfoszintaktikai elemzést reprezentáló annotációs formátumot. Elsősorban a morfo(fono)lógiai és szintaktikai kutatások későbbi igényeinek figyelembe vételével megvalósult a legkisebb azonosított alkotóelemek, az egyes morfémák reprezentálása, a főnévi csoportok és névelemek azonosítása; ezek az információk az MNSz-ben még nem voltak jelen.

A hasznos szöveganyag nyelvi elemzésének előkészítő lépéseit (mondatokra, illetve szó jellegű elemekre bontás – szegmentálás/tokenizálás) a Huntoken eszköz továbbfejlesztett, „háziasított” változata végezte (Miháczi et al., 2003). A morfológiai elemzést, mely gazdag morfológiával rendelkező nyelvekre kritikus fontosságú a további magasabb szintű elemzéshez, a jelentősen felújított Humor morfológiai elemző (Prószéky – Tihanyi, 1996) szolgáltatta, információt adva a szótővel, egyes morfémákkal, szóösszetételekkel kapcsolatban.

A belső annotációs formátum kiindulópontja a mondatra bontás és a tokenizálás kimenete. Minden szóelem (token) külön sorban szerepel, üres sorok jelölik a mondathatárokat. Minden további nyelvi annotáció típusonként egy-egy újabb oszlopban jelenik meg, egy rugalmas és könnyen feldolgozható formátumot eredményezve. A több szóelemen átnyúló szerkezeteket az ún. IOB-formátum szerinti kódolás⁵ reprezentálja. Ez a belső reprezentáció egyszerűen átalakítható szabványos XML-formátumra, amennyiben szükséges.

A kódolást az 1._ábra illusztrálja. Az első oszlop a szövegbeli szóalak, a második a szótő, ezt követi a morfológiai elemzés kódja (szófaj és toldalékok), egy, az automatikus egyértelműsítéshez használt egyszerűsített morfológiai kód, majd a részletes morféma szintű elemzés, ezután a szóalak és a szótő szótagszerkezete, és egyszerűsített (pszeudo-)fonemikus átírása. Az utolsó oszlop ebben a példában a főnévi csoportok annotálására szolgál, B jelöli az adott főnévi csoport kezdő elemét, I(-k) a további tartalmazott eleme(ke)t, O pedig azokat, melyek nem tagjai főnévi szerkezetnek.⁶ Az MNSz korábbi verziójában csak az első négy oszlopban található annotáció szerepelt, a további oszlopok mind új, most hozzáadott elemzést tartalmaznak. Mindamellett, hogy az eredetileg szereplő elemzés is lényegesen jobb minőségű, a mennyiségi javulás is szembetűnő.

5. Eredmények, hozzáférés

Az adatbázis kialakításának utolsó lépéseként a megnövelt terjedelem igényelte az adatbázist építő rendszer továbbfejlesztését is. A megnövekedett felhasználói igények kiszolgálására az MNSz2 teljesen új hálózati felületet kapott, a lekérdezések beépített elemzését és többszempontú rendezését segítő korszerű webes technológiát kihasználó segédeszközökkel. A felület lehetőséget ad összetett menüvezérelt keresésre a kódolt információ minden részletében. A megjelenítési beállításokban a szövegkörnyezet, a metaadatok prezentációja állítható be, a kapott adatokon pedig további feldolgozási lépések végezhetők el, mint például megoszlásvizsgálatok, több szintű gyakorisági listák, többszavas kifejezések, kollokációk, igei argumentumok kinyerése.

A 2. ábra azokat a szókapcsolatokat illusztrálja, ahol a „piros” szóalak fordul elő első elemként, a 3. ábra pedig az ebből a listából kiválasztott „piros lámpa” kifejezés konkrét előfordulásaira mutat példákat. Ezek a típusú keresések (sok más komplex kereséssel együtt) gyakorlatilag néhány kattintással elérhetők.

Az MNSz eddigi hivatkozási és látogatottsági adatai alapján reméljük, hogy az új adatbázis értékes forrása lesz minden olyan kutatásnak és fejlesztésnek, amely magyar nyelvi adatot használ fel.

Kulcsszavak: nyelvi adat, nyelvi erőforrás, szövegkorpusz, morfoszintaktikai elemzés, egyértelműsítés, annotáció, reprezentativitás, keresés

IRODALOM

Baroni, Marco – Ueyama, Motoko (2006): Building General- and Special-purpose Corpora by Web Crawling. In: Proceedings of the 13th NIJL International Symposium, Language Corpora: Their Compilation and Application., Tokyo, Japan. 31–40. • WEBCÍM

Csendes Dóra – Csirik J. – Gyimóthy T. (2004): The Szeged Corpus: A POS Tagged and Syntactically Annotated Hungarian Natural Language Corpus. In: Sojka, Petr – Pala, Karel – Kopecek, Ivan (eds.): Text, Speech and Dialogue: 7th International Conference, TSD, 41–47. DOI: 10.1007/978-3-540-30120-2_6 • WEBCÍM

Halácsy Péter – Kornai A. – Németh L. – Rung A. – Szakadát I. – Trón V. (2003): A Szószablya projekt. In: Proceedings of the 1st Hungarian Computational Linguistics Conference. Szegedi Tudományegyetem

Halácsy Péter – Kornai A. – Oravecz Cs. (2007): HunPos – An Open Source Trigram Tagger. In: Proceedings of the 45th Annual Meeting of the Association of Computational Linguistics, Prague • WEBCÍM

Halácsy Péter – Kornai A. – Oravecz Cs. – Trón V. – Varga D. (2006): Using a Morphological Analyzer in High Precision POS Tagging of Hungarian. In: Proceedings of LREC 2006, 2245–2248. • WEBCÍM • WEBCÍM

Kupietz, Marc (2005): Near-duplicate Detection in the IDS Corpora of Written German. Technical Report IDS-KT-2006-01, Institut für Deutsche Sprache • WEBCÍM

Kučera, Henry – Francis, W. Nelson (1967): Computational Analysis of Present-day American English. Brown University Press, Providence, RI

Lui, Marco – Baldwin, Timothy (2012): langid.py: An Off-the-shelf Language Identification Tool. In: Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics (ACL 2012), Jeju, Republic of Korea • WEBCÍM

Miháczi András – Németh L. – Rácz M. (2003): Magyar szövegek természetes nyelvi előfeldolgozása. In: Alexin Zoltán – Csendes Dóra (szerk.) I. Magyar Számítógépes Nyelvészeti Konferencia 2003. Szegedi Tudományegyetem

Oravecz Csaba – Dienes Péter (2002): Efficient Stochastic Part of Speech Tagging for Hungarian. In: Proceedings of the Third International Conference on Language Resources and Evaluation, Las Palmas. 710–717. • WEBCÍM

Parker, Robert – Graff, D. – Kong, J. – Chen, K. – Maeda, K. (2011): English Gigaword Fifth Edition. DVD, Linguistic Data Consortium

Pomikálek, Jan (2011): Removing Boilerplate and Duplicate Content from Web Corpora. Ph.D. thesis, Masaryk University, Faculty of Informatics, Brno • WEBCÍM

Prószéky Gábor – Tihanyi László (1996): Humor – A Morphological System for Corpus Analysis. In: Proceedings of the first TELRI seminar in Tihany, Budapest. 149–158.

Trón Viktor – Gyepesi Gy. – Halácsy P. – Kornai A. – Németh L. – Varga D. (2005): Hunmorph: Open Source Word Analysis. In: Proceedings of the ACL 2005 Workshop on Software • WEBCÍM

Váradi Tamás (2002): The Hungarian National Corpus. In: Proceedings of the Third International Conference on Language Resources and Evaluation, Las Palmas. 385–389. • WEBCÍM

URL1

LÁBJEGYZETEK

1 azóta folyamatos kiegészítésekkel mintegy 80%-kal megnövelt <

2 Ez azonban ún. opportunista összeállítással, a magyar weben elérhető szövegek teljes letöltésével készült, azaz összetételében nem törekedett a nyelvhasználat különféle változatainak kiegyensúlyozott reprezentálására. <

3 A web mint korpusz megközelítés előnyeit és hátrányait részletesen tárgyalja például Marco Baroni és Motoko Ueyama (2006), a kérdéssel jelen tanulmány a fentieken túl nem foglalkozik. <

4 A nyelvi elemzés érdekében számos esetben van szükség erre a lépésre, de a legtriviálisabb illusztrációt az ‚ő’ és ‚ű’-nek „szánt” karakterek széles változatossága szolgáltatja, ezt a változatosságot természetesen ki kell küszöbölni. <

5 Inside, Outside, Beginning: szerkezeten belüli, szerkezeten kívüli, szerkezetkezdő elem. <

6 A korpusz méretéből adódóan mindenfajta annotáció automatikus, így nem lehet 100%-osan pontos; hibákat tartalmazhat. <