1. Bevezetés, fogalmak, elvek
Mi az, hogy nyelvészeti szövegkereső? Olyan számítógépes eszköz,
gyakran online felület, melynek segítségével szövegekben, általában
nagy méretű szöveggyűjteményekben kereshetünk adott tulajdonságú
szavakat, szókapcsolatokat, és a keresési feltételeket különféle
nyelvészeti szempontok, a szavak nyelvészeti tulajdonságai alapján
adhatjuk meg. Az ilyen eszközöket a (számítógépes) nyelvészetben
korpuszlekérdezőnek szokás hívni, azért vezetem be a fogalomra
szinonímaként a nyelvészeti szövegkereső megjelölést, mert ez talán
jobban érthetővé teszi, hogy miről is van szó.
Mi a korpusz? Sok szöveg. Mi a lekérdezés?
Valamiket keresünk ebben a szövegben. A korpusz fogalmát leszűkítjük
annyiban, hogy csak elektronikusan tárolt szövegekről beszélünk, és
ezen belül is csak a „géppel olvasható”, karakteres formában
rendelkezésre álló szövegekről. A képként tárolt szövegek tehát nem
megfelelőek, szükséges, hogy a szöveg a számítógép számára
azonosítható karakterek sorozataként legyen reprezentálva.
Mekkorák valójában ezek a nagy méretű
szöveggyűjtemények? A szemléletesség kedvéért képzeljük el a
korpuszokat könyvek formájában egy könyvespolcon. Egy 5 centi
szélességű könyv nagyjából százezer szót tartalmaz. Eszerint
egymillió szó 50 centis, százmillió szó 50 méteres, és a ma
általánosnak tekinthető milliárd szavas korpuszok 500 méteres
könyvsorként képzelhetők el.
Sok szövegben akarunk tehát keresni.
Gondolhatnánk, hogy ez meg van oldva, rendelkezésünkre állnak a
különféle internetes keresők, melyek éppen ezt csinálják, valóban
nagyon sok szövegben képesek keresni, és a releváns információt
visszaadni. Lassan egyetemista lesz az a korosztály, amelyiknek a
születésekor már létezett a hatékony internetes keresés.
Adam Kilgarriff 2007-es Googleology is Bad
Science – magyarul nagyjából A guglizás mint nem megfelelő
tudományos módszer – című cikkében (Kilgarriff, 2007) összeveti az
internetes keresőket a korpuszlekérdezőkkel, és bemutatja, hogy az
előbbiek miért nem alkalmasak arra, hogy nyelvészeti
szövegkeresőkként használjuk őket. Négy szempontot sorol fel,
érdemes itt áttekinteni ezeket. Az internetes keresőkben (1) nincs
nyelvészeti adatolás, mint például az egyes szavakhoz a szótő vagy a
szófaj; (2) a keresőkifejezést csak nagyon behatárolt módon lehet
megadni; (3) korlátozva van a naponta futtatható lekérdezések száma
(ez akkor probléma, ha automatikusan szeretnénk futtatni sok, akár
több ezer lekérdezést) és nem kapjuk meg az összes találatot;
valamint (4) egy találat egy dokumentumot (internetes oldalt)
jelent, nem pedig egy szóelőfordulást.
Az internetes keresők tehát nem nyelvészeti
szövegkeresők, a nyelvészeti adatolás hiánya, illetve az egyszerű
lekérdezési formátum miatt nem tudunk nyelvészetileg releváns
lekérdezéseket megfogalmazni. Az internetes keresők ún.
információ-visszakereső (information retrieval – IR) rendszerek,
feladatuk az, hogy azt a dokumentumot adják eredményül, mely a
lekérdezésnek megfelelő releváns információt tartalmazza. A
nyelvészeti szövegkeresők feladata ezzel szemben az, hogy adott,
precízen körülírt nyelvi jelenség összes előfordulását
szolgáltassák, így nemcsak példákat kapunk a jelenségre, hanem
lehetővé válik a jelenség statisztikai vizsgálata is.
Nézzük meg, hogy mit kell tudniuk a nyelvészeti
szövegkeresőknek a fenti négy szempont tekintetében.
A szövegek nyelvi adatolást – ún. annotációt –
kell, hogy tartalmazzanak. Az annotáció azt jelenti, hogy a szöveg
egyes egységeihez különféle adatok vannak rendelve. Például a
dokumentumokhoz a szerző vagy a szavakhoz a szófaj, de a
bekezdésekhez, mondatokhoz is társíthatók adatok, mint például az
adott egység nyelve vagy mérete. Az annotációk általában valamilyen
egységes kódrendszer szerint szerepelnek a korpuszokban.
Példa: A körülültük szóalak morfológiai
annotációja, azaz ami a szó alaktanát, a benne lévő elemeket írja le
a következő lehet: IK.IGE.TMt1. Ebből kiderül, hogy ez a szóalak
tehát egy igekötős (IK) ige (IGE), mely határozott ragozású (T) –
vö: körülültük az asztalt és nem egy asztalt –, múlt idejű (M), és
többes szám első személyű (t1).
Az annotációk kézi, gépi (automatikus) vagy
félautomatikus (gépi annotálás + kézi ellenőrzés) úton kerülnek bele
a korpuszokba. Számos nyelvre számos automatikus szótövező,
morfológiai elemző, szintaktikai elemző stb. eszköz létezik. Nagyobb
szövegeknél és megbízható gépi eszközök esetén kap teret az
automatikus gépi annotálás. A korpusz fogalmát a fentiek alapján
tovább szűkíthetjük az annotált szövegekre.
A nyelvészeti szövegkeresők fontos tulajdonsága,
hogy az alapegység nem a dokumentum, hanem leggyakrabban a szó.
Esetleg lehet más, dokumentumnál kisebb egység is: mondat, tagmondat
vagy akár a hang, de mindenképpen valamilyen nyelvészeti szempontból
releváns egység. A filológiával, irodalomtudománnyal szemben, mely
talán nagyobb jelentőséget tulajdonít a dokumentumokhoz rendelt,
dokumentumszintű adatoknak (szerző, forrás, megjelenés ideje stb.),
a nyelvészeti szövegkeresőkben a szó a központi elem. Egyrészt
általában a szavak kapják a legtöbb fajta és legrészletesebb
annotációt, másrészt a találatok sem dokumentumok, hanem szavak.
Másképp fogalmazva: egy nyelvészeti szövegkereső esetében alapvető
követelmény, hogy a keresett szó minden egyes előfordulását külön
találatként jelenítse meg.
Az irodalomtudományban ma elterjedt Franco
Moretti-féle distant reading (távoli olvasás) paradigma (Moretti,
2013) több mű, sok szöveg („adat”) aggregált (statisztikai)
vizsgálatát javasolja, szembeállítva az egyes művek mélyreható
vizsgálatát, aprólékos tanulmányozását jelentő hagyományos close
reading (közeli vagy szoros olvasás) iránnyal. Egy irodalmi mű
tanulmányozásához a mű elolvasása mindenképpen szükségesnek tűnik,
Moretti mégis lényegében azt javasolja, hogy ne olvassuk el a
műveket. Úgy tűnhet, hogy a fenti szóközpontú nyelvészi megközelítés
a hagyományos közeli olvasás irányt képviseli. Úgy véljük, hogy ez
nincs így: a nyelvi információk mindkét megközelítésben segíthetik a
kutatást, a távoli olvasás jellegű statisztikai vizsgálatokhoz éppen
az annotált, elemzett korpuszok szolgáltathatják a gondosan
előkészített, tiszta nyelvi adatot.
Úgy is mondhatjuk, hogy a nyelvészeti
szövegkeresők esetében szeretnénk pontosan megadni, hogy hol
keresünk és hogy mit keresünk. Egyrészt fontos, hogy mi a
szöveganyag, azaz össze kell állítani az aktuális kívánalmak,
kutatási kérdések szerinti korpuszt, legyen az egy sajtókorpusz, egy
adott regény, Petőfi Sándor összes műve, Kovács Pisti
Facebook-bejegyzései vagy a magyar nyelvet egészében jól
reprezentáló nagyméretű korpusz. Másrészt, ahogy fentebb is írtuk,
fontos, hogy meghatározzuk, meghatározhassuk, hogy pontosan mit
keresünk. Nyelvészetileg releváns kérdéseket szeretnénk feltenni.
Nyelvi tudású keresőt szeretnénk, ami adatot szolgáltat a magyar
nyelv, a magyar nyelvű szövegek vizsgálatához.
A korpuszlekérdező tehát olyan számítógépes
rendszer, mely meghatározott, alkalmasan annotált szöveganyagon,
nyelvészetileg releváns kérdésekre tud válaszolni. A korpuszban
rejlő nyelvi tudást a korpusz annotációja tartalmazza, ez teszi
lehetővé, hogy nyelvészeti szempontok szerint pontosan megadhassuk,
hogy mit keresünk.
Miért szükséges a korpuszlekérdező a nyelvészeti
munkákhoz? Valós nyelvi megnyilatkozások gyűjteményeként a korpusz
az, ami a hiteles nyelvi adatot szolgáltatja a kutatási kérdések
megválaszolásához, a nyelvészeti hipotézisek alátámasztásához,
illetve cáfolatához. A megfelelő korpusz objektívebb tud lenni, mint
a nyelvész intuíciója vagy a korábbi évtizedekben használt célzott
„cédulázós” kézi adatgyűjtés.
A nyelvészeti szövegkeresők legfontosabb
sajátossága talán abban ragadható meg, hogy nemcsak adott szavakra,
hanem nyelvészeti szempontok szerint megadott szóosztályokra is
kereshetünk a segítségükkel. Adott lekérdezésre kapott válaszban
általában nem egy konkrét szó előfordulásai, hanem a megadott
feltételeknek megfelelő szóosztály tagjainak előfordulásai
szerepelnek.
Példák: Ha a morfológiai annotációnál bemutatott
példa szerint igekötős, határozott ragozású, múlt idejű, többes szám
első személyű igéket keresünk, akkor a körülültük, felszedegettük,
elsimítottuk, végigcsináltuk… szóosztály tagjait fogjuk megkapni
eredményként. Hasonlóan, ha f-fel kezdődő -ban/-ben ragos többes
számú főneveket keresünk, akkor a forrásokban, fellegekben,
falvakban, fejekben… szavakat találjuk. A fenti morfológiai
(alaktani) példák után vegyünk egy fonológiai (hangtani) példát is
harmadikként: ha a lekérdezés olyan három hangból álló szótövekre
irányul, melyek első hangja ún. affrikáta (c, dz, cs vagy dzs), a
második hang tetszőleges magánhangzó, a harmadik pedig ún.
approximáns (l vagy j), akkor cél, csal, csaj, csel, dzsal… lesz az
eredmény.
A nyelvészeti szövegkeresőkben a legtöbb esetben
nemcsak egyes szavakra, hanem szavak sorozataira, szókapcsolatokra
is lehet keresni, következésképpen szóosztályok sorozataira,
szóosztályok kapcsolataira is, amint erre a 2.5. részben példát is
fogunk látni. Az összes találatnak köszönhetően megtudjuk az egyes
szavak, szókapcsolatok gyakorisági adatait és viszonyait, valamint
legtöbbször lehetőség van az egyes találati szavak környezetének
vizsgálatára is.
E tanulmány két nagyobb részből áll. A következő
részben bemutatjuk az elmúlt több mint tíz évben, a Nyelvtudományi
Intézet Nyelvtechnológiai és Alkalmazott Nyelvészeti Osztályán
készült korpuszokat és nyelvészeti szövegkeresőket. Utána pedig
arról fogunk gondolkozni, hogy hogyan lehetne a jövőben ezt a
sokféle korpuszt és sokféle lekérdezőt valahogyan egységes keretben
kezelni, egységes keretben prezentálni, sőt reklámozni a potenciális
felhasználók felé. Erről fog szólni a Nemzeti Korpuszportál ötlete.
2. Korpuszlekérdezők evolúciója
Ebben a részben öt nyelvészeti szövegkeresőt fogunk bemutatni. A cél
az, hogy illusztráljuk az effajta technológiai eszközök fejlődését
az évek során megjelenő újabb funkciók révén. A bemutatás nem teljes
körű, csak néhány kiválasztott érdekes, hasznos funkcióra terjed ki.
2.1. MNSZ1 • Az első jelentős számítógépes
nyelvészeti szövegkereső rendszer, amely az MTA Nyelvtudományi
Intézetében készült, a Magyar Nemzeti Szövegtár első változata
(MNSZ1) volt (Váradi, 2002). Jelen formájában 2005 óta érhető el,
közel kétszázmillió szónyi szöveganyagot foglal magában. A magyar
nyelv reprezentatív korpusza kíván lenni, ezért különféle
stílusrétegekből (szépirodalom, hivatalos, tudományos, sajtó,
internetes fórumok) ölel fel a hazain kívül határon túli anyagot is.
Az 1. ábrán láthatók a
fut szótőből és az azt maximum öt szó kihagyással követő után
névutóból álló szókapcsolat előfordulásai ún. konkordancia
formátumban. Ez a klasszikus megjelenítési forma azt jelenti, hogy a
találati szavakat kiemelve egymás alá rendezzük, és a környezetükkel
együtt mutatjuk be.
Kilgarriff első és második szempontjának
megfelelően elkülönítjük a korpuszlekérdezők annotációs funkcióit és
lekérdezőfunkcióit. A bemutatott korpuszokat e két szempontból
vizsgáljuk: egyrészt a korpuszban meglévő annotáció (nyelvi tudás)
jellegzetességeit tekintjük, másrészt pedig a lekérdezőfelületen
elérhető eszközöket.
Már ezen a korai felületen megtaláljuk a
legalapvetőbb, leggyakrabban meglévő annotációkat és funkciókat. Az
annotáció tartalmazza a szótövet és a morfológiai elemzést, a
lekérdező konkordancia formában jeleníti meg a találatokat, és képes
szókapcsolatokra is keresni. A konkordancia megfelel annak a
korábban megfogalmazott követelménynek, hogy a keresett szó,
jelenség minden előfordulását külön találatként jelenítse meg.
2.2. Mazsola • A jelen formájában 2009 óta
hozzáférhető Mazsola korpuszlekérdező (Sass, 2009) ugyanazon a
szöveganyagon működik, mint az MNSZ1, de egy más szempontú keresési
lehetőséget kínál kiegészítő annotációja révén.
A korpuszban itt meg vannak jelölve a
tagmondatok, azonosítva van a tagmondat igéje (esetleges elváló
igekötőjével együtt), és azonosítva vannak az ige mellett megjelenő
névszói bővítmények (alany, tárgy, ragos és névutós névszók). Ez az
annotáció teszi lehetővé, hogy a szórend fölött általánosítsunk,
azaz igéket és bővítményeket, igékből és bővítményekből álló
szerkezeteket a konkrét, az adott szöveghelyen épp megjelenő
szórendjüktől függetlenül vizsgáljunk. Mondhatjuk, hogy ennek a
lekérdezőnek az alapegysége nem a szó, hanem a tagmondat.
Példák: Olyan típusú lekérdezéseket
fogalmazhatunk meg itt, hogy mik a hagy jellegzetes tárgyai, vagy,
hogy mi a jellegzetes ige, ha a két bővítmény hideg és hátán. Az
első esetben többek között a kívánnivalót, nyomot, kétséget,
üzenetet szavakat kapjuk. Látjuk, hogy ezek nem egyszerű tárgyak,
hanem a hagy-gyal speciális jelentésű szókapcsolatot (összetett
igét) alkotó szavak. A Mazsola jellemző módon felfedi az efféle
szerkezeteket. A második esetben a végigfut, futkos, futkározik
igéket kapjuk (2. ábra). A
Magyar szókincstárban (Kiss, 1998) a szóban forgó szólásnak csak az
első két változata szerepel. A Mazsola alkalmas kötöttnek vélt
szerkezetek, szólások változatainak vizsgálatára is, a nagy
korpusznak köszönhetően teljesebb képet kaphatunk a vizsgált
jelenségről.
A Mazsola annotációs szintű újdonsága a
szórendfüggetlenség.
2.3. BUSZI • A nyelvi jelenségek vizsgálatában
kiemelten értékesek a beszélt nyelvi korpuszok. Ezek szöveganyaga
eredetileg nem írott szöveg, hanem valódi szóbeli megnyilatkozások
összessége, melyet utólag jegyeznek le meghatározott formában. Az
ilyen korpuszok készítése jóval nagyobb erőfeszítést igényel, mint
az írott nyelvi korpuszoké. A Budapesti Szociolingvisztikai Interjú
felvételei a 1980-as évek végén készültek, az annotált, lekérdezővel
ellátott korpusz 2012-ben vált elérhetővé. A korpusz szöveganyaga
270 000 szó.
A BUSZI-korpusz nagyon gazdag annotációval bír a
a beszélt nyelvi jelenségek tekintetében, az annotációban rejlő
nyelvi tudás a kereső segítsé-gével minden részletében feltárható
(3. ábra).
…bizonyos dógokban mmm tát, hogy ööö
lustább annál, mint amilyennek elképzeltem…
|
3. ábra • A BUSZI-ban annotált jelenségek illusztrációja. E rövid
részletben számos beszélt nyelvi jelenség megtalálható, ezek a
korpusz annotációjában mind explicit módon megjelennek.
A négyzet szünetet jelöl, a mmm és az ööö
hezitációt. Az annotáció tartalmazza a tát szónak
a regularizált tehát alakját. A dógokban szó
esetében szintén tudjuk a regularizált alakot (dolgokban), és a
szótövet (dolog). Ezenkívül
tudjuk azt is, hogy itt egy l-kiesés jelenséggel
van dolgunk, mely mássalhangzó előtti
pozícióban történt, s ami ún. pótlónyúlással
(a kiesést megelőző hosszú ó-val) párosul. |