Az az előzetes várakozás, hogy a tizenöt évvel ezelőtti helyzethez
képest a szöveges dokumentumok kezelése és tárolása a nemzetközi
szabványokhoz közelítve sokat javul, és ez majd nagyban megkönnyíti
a korpusz anyagának összegyűjtését, sajnos egyáltalán nem
igazolódott be; jelenleg is sok probléma adódott a forrásszövegek
hozzáférhetőségével és eredeti formátumával. Ehhez adódott még egy
sajnálatos további hátráltató tényező: számos olyan adatforrás,
amelyeknek a szövegei az MNSz első változatának szerves részét
alkotják, nem járult hozzá az azóta keletkezett szövegeik
felvételéhez az MNSz2-be. Ennek valódi okait csak találgatni lehet,
szomorú következménye viszont az, hogy a nyelvhasználat bizonyos
jelentős szegmentumai a mostani mintavételből teljesen kimaradtak.
A korpusz jelenlegi összetételét az
1. táblázat foglalja össze. Első
pillantásra is látszik, hogy a sajtónyelvi anyag továbbra is
domináns, érdemes azonban észrevenni, hogy minden nyelvváltozat
anyaga minimum megduplázódott a korábbi változathoz képest, valamint
megjelent egy új „műfaj”, a(z átírt) beszélt nyelvi anyag is.
4.2. Előfeldolgozás, szövegnormalizálás • Az előfeldolgozás és
normalizálás során a cél a forrásszövegek olyan szabványos
elektronikus formátumba alakítása, mely hatékonyan feldolgozható
bemenetként szolgál a nyelvi elemzőlánc számára. Ebben a lépésben
történik a forrásformátumokból a hasznos szöveges tartalom kinyerése
és az alapvető dokumentumstruktúra azonosítása, a karakterek
normalizálása.4 A későbbi feldolgozás szempontjából fontos lépés a
nyelvazonosítás, a nem magyar nyelvű szövegrészek kiszűrése, illetve
megjelölése. Az itt alkalmazott technológia (Lui – Baldwin, 2012)
meghatározott küszöbhossznál (néhány tucat karakter) nagyobb
bekezdésnyi szövegrészeken gyakorlatilag 100%-os pontossággal
működik.
A gondos forrásválogatás ellenére a szövegek között mindig
megjelennek (közel) duplikátumok. Ezek detektálása az MNSz2 esetében
annál komplexebb kérdésnek bizonyult, hogy például egy, az
internetről letöltött szövegeken alapuló korpuszokra kifejlesztett
sztenderd megoldást közvetlenül alkalmazni lehessen (Pomikálek,
2011). A források változatossága (a közösségi média letöltött
szövegeitől a hivatalos, jogi anyagokon keresztül a sajtószövegekig
és a szépirodalomig) célzott módszer alkalmazását tette szükségessé,
ami egy általános eszközkészleten alapult (Kupietz, 2005), de az
egyes szövegtípusokra szabott automatikus detektálást manuális
ellenőrzésnek is kellett követnie, hogy megállapíthassuk, vajon
valódi duplikátumokról van-e szó, vagy olyan ismétlődő
szövegegységekről, melyek szerves tulajdonsága az ismétlődés, így
adattorzítást éppen az eltávolításuk okozott volna (lásd például az
időjárás-jelentések szövegei).
4.3. Elemzés és annotáció • A nyelvi feldolgozás minden szintjén
jelentős minőségi javulást eredményező új, illetve továbbfejlesztett
eszközöket használtunk fel, újraterveztük az automatikus
egyértelműsítő architektúrát, illetve a kapott morfoszintaktikai
elemzést reprezentáló annotációs formátumot. Elsősorban a
morfo(fono)lógiai és szintaktikai kutatások későbbi igényeinek
figyelembe vételével megvalósult a legkisebb azonosított
alkotóelemek, az egyes morfémák reprezentálása, a főnévi csoportok
és névelemek azonosítása; ezek az információk az MNSz-ben még nem
voltak jelen.
A hasznos szöveganyag nyelvi elemzésének előkészítő lépéseit
(mondatokra, illetve szó jellegű elemekre bontás –
szegmentálás/tokenizálás) a Huntoken eszköz továbbfejlesztett,
„háziasított” változata végezte (Miháczi et al., 2003). A
morfológiai elemzést, mely gazdag morfológiával rendelkező nyelvekre
kritikus fontosságú a további magasabb szintű elemzéshez, a
jelentősen felújított Humor morfológiai elemző (Prószéky – Tihanyi,
1996) szolgáltatta, információt adva a szótővel, egyes morfémákkal,
szóösszetételekkel kapcsolatban.
A belső annotációs formátum kiindulópontja a mondatra bontás és a
tokenizálás kimenete. Minden szóelem (token) külön sorban szerepel,
üres sorok jelölik a mondathatárokat. Minden további nyelvi
annotáció típusonként egy-egy újabb oszlopban jelenik meg, egy
rugalmas és könnyen feldolgozható formátumot eredményezve. A több
szóelemen átnyúló szerkezeteket az ún. IOB-formátum szerinti
kódolás5 reprezentálja. Ez a belső reprezentáció egyszerűen
átalakítható szabványos XML-formátumra, amennyiben szükséges.
A kódolást az
1._ábra illusztrálja. Az első oszlop a szövegbeli
szóalak, a második a szótő, ezt követi a morfológiai elemzés kódja
(szófaj és toldalékok), egy, az automatikus egyértelműsítéshez
használt egyszerűsített morfológiai kód, majd a részletes morféma
szintű elemzés, ezután a szóalak és a szótő szótagszerkezete, és
egyszerűsített (pszeudo-)fonemikus átírása. Az utolsó oszlop ebben a
példában a főnévi csoportok annotálására szolgál, B jelöli az adott
főnévi csoport kezdő elemét, I(-k) a további tartalmazott
eleme(ke)t, O pedig azokat, melyek nem tagjai főnévi szerkezetnek.6
Az MNSz korábbi verziójában csak az első négy oszlopban található
annotáció szerepelt, a további oszlopok mind új, most hozzáadott
elemzést tartalmaznak. Mindamellett, hogy az eredetileg szereplő
elemzés is lényegesen jobb minőségű, a mennyiségi javulás is
szembetűnő.
5. Eredmények, hozzáférés
Az adatbázis kialakításának utolsó lépéseként a megnövelt terjedelem
igényelte az adatbázist építő rendszer továbbfejlesztését is. A
megnövekedett felhasználói igények kiszolgálására az MNSz2 teljesen
új hálózati felületet kapott, a lekérdezések beépített elemzését és
többszempontú rendezését segítő korszerű webes technológiát
kihasználó segédeszközökkel. A felület lehetőséget ad összetett
menüvezérelt keresésre a kódolt információ minden részletében. A
megjelenítési beállításokban a szövegkörnyezet, a metaadatok
prezentációja állítható be, a kapott adatokon pedig további
feldolgozási lépések végezhetők el, mint például
megoszlásvizsgálatok, több szintű gyakorisági listák, többszavas
kifejezések, kollokációk, igei argumentumok kinyerése.
A 2. ábra azokat a szókapcsolatokat illusztrálja, ahol a „piros”
szóalak fordul elő első elemként, a
3. ábra pedig az ebből a
listából kiválasztott „piros lámpa” kifejezés konkrét
előfordulásaira mutat példákat. Ezek a típusú keresések (sok más
komplex kereséssel együtt) gyakorlatilag néhány kattintással
elérhetők.
Az MNSz eddigi hivatkozási és látogatottsági adatai alapján
reméljük, hogy az új adatbázis értékes forrása lesz minden olyan
kutatásnak és fejlesztésnek, amely magyar nyelvi adatot használ fel.
Kulcsszavak: nyelvi adat, nyelvi erőforrás, szövegkorpusz,
morfoszintaktikai elemzés, egyértelműsítés, annotáció,
reprezentativitás, keresés
IRODALOM
Baroni, Marco – Ueyama, Motoko (2006):
Building General- and Special-purpose Corpora by Web Crawling. In:
Proceedings of the 13th NIJL International Symposium, Language
Corpora: Their Compilation and Application., Tokyo, Japan. 31–40. •
WEBCÍM
Csendes Dóra – Csirik J. – Gyimóthy T.
(2004): The Szeged Corpus: A POS Tagged and Syntactically Annotated
Hungarian Natural Language Corpus. In: Sojka, Petr – Pala, Karel –
Kopecek, Ivan (eds.): Text, Speech and Dialogue: 7th International
Conference, TSD, 41–47. DOI: 10.1007/978-3-540-30120-2_6 •
WEBCÍM
Halácsy Péter – Kornai A. – Németh L. –
Rung A. – Szakadát I. – Trón V. (2003): A Szószablya projekt. In:
Proceedings of the 1st Hungarian Computational Linguistics
Conference. Szegedi Tudományegyetem
Halácsy Péter – Kornai A. – Oravecz Cs.
(2007): HunPos – An Open Source Trigram Tagger. In: Proceedings of
the 45th Annual Meeting of the Association of Computational
Linguistics, Prague •
WEBCÍM
Halácsy Péter – Kornai A. – Oravecz Cs. –
Trón V. – Varga D. (2006): Using a Morphological Analyzer in High
Precision POS Tagging of Hungarian. In: Proceedings of LREC 2006,
2245–2248. •
WEBCÍM •
WEBCÍM
Kupietz, Marc (2005): Near-duplicate
Detection in the IDS Corpora of Written German. Technical Report
IDS-KT-2006-01, Institut für Deutsche Sprache •
WEBCÍM
Kučera, Henry – Francis, W. Nelson (1967):
Computational Analysis of Present-day American English. Brown
University Press, Providence, RI
Lui, Marco – Baldwin, Timothy (2012):
langid.py: An Off-the-shelf Language Identification Tool. In:
Proceedings of the 50th Annual Meeting of the Association for
Computational Linguistics (ACL 2012), Jeju, Republic of Korea •
WEBCÍM
Miháczi András – Németh L. – Rácz M.
(2003): Magyar szövegek természetes nyelvi előfeldolgozása. In:
Alexin Zoltán – Csendes Dóra (szerk.) I. Magyar Számítógépes
Nyelvészeti Konferencia 2003. Szegedi Tudományegyetem
Oravecz Csaba – Dienes Péter (2002):
Efficient Stochastic Part of Speech Tagging for Hungarian. In:
Proceedings of the Third International Conference on Language
Resources and Evaluation, Las Palmas. 710–717. •
WEBCÍM
Parker, Robert – Graff, D. – Kong, J. –
Chen, K. – Maeda, K. (2011): English Gigaword Fifth Edition. DVD,
Linguistic Data Consortium
Pomikálek, Jan (2011): Removing
Boilerplate and Duplicate Content from Web Corpora. Ph.D. thesis,
Masaryk University, Faculty of Informatics, Brno •
WEBCÍM
Prószéky Gábor – Tihanyi László (1996):
Humor – A Morphological System for Corpus Analysis. In: Proceedings
of the first TELRI seminar in Tihany, Budapest. 149–158.
Trón Viktor – Gyepesi Gy. – Halácsy P. –
Kornai A. – Németh L. – Varga D. (2005): Hunmorph: Open Source Word
Analysis. In: Proceedings of the ACL 2005 Workshop on Software •
WEBCÍM
Váradi Tamás (2002): The Hungarian
National Corpus. In: Proceedings of the Third International
Conference on Language Resources and Evaluation, Las Palmas.
385–389. •
WEBCÍM
URL1
LÁBJEGYZETEK
1 azóta folyamatos
kiegészítésekkel mintegy 80%-kal megnövelt
<
2 Ez azonban ún.
opportunista összeállítással, a magyar weben elérhető szövegek
teljes letöltésével készült, azaz összetételében nem törekedett a
nyelvhasználat különféle változatainak kiegyensúlyozott
reprezentálására.
<
3 A web mint korpusz
megközelítés előnyeit és hátrányait részletesen tárgyalja például
Marco Baroni és Motoko Ueyama (2006), a kérdéssel jelen tanulmány a
fentieken túl nem foglalkozik.
<
4 A nyelvi elemzés
érdekében számos esetben van szükség erre a lépésre, de a
legtriviálisabb illusztrációt az ‚ő’ és ‚ű’-nek „szánt” karakterek
széles változatossága szolgáltatja, ezt a változatosságot
természetesen ki kell küszöbölni.
<
5 Inside, Outside,
Beginning: szerkezeten belüli, szerkezeten kívüli, szerkezetkezdő
elem.
<
6 A korpusz
méretéből adódóan mindenfajta annotáció automatikus, így nem lehet
100%-osan pontos; hibákat tartalmazhat.
<
|