„Nem szükségszerű, hogy kibékíthetetlen ellentét
legyen a racionalista és az empirikus nézőpont között; ma
már sokan tudják: adaton nem a nyelvész noteszába beírt privát
bejegyzést kell érteni, hanem azt a nyersanyagot, amelyen állnak vagy
buknak az elméletek.”
(Dömötör, 2011, 49)
Tanulmányomban Mikes Kelemen életművének folyamatban lévő szótári
feldolgozásáról adok helyzetképet.* Egy olyan
munkálat részleteit mutatom be, amelyben a modern számítógépes
eljárások egyesülnek a hagyományos filológiai eszközökkel, s amelyben
hasznosítani igyekszünk a már elkészült vagy készülőben lévő külföldi
elektronikus szótárak tanulságait.
Már az 1900-as évek elején szótárszerűen
feldolgozták Mikes egyes szavait: 1906-ban Szily Kálmán néhány tucat
szócikket közöl a Törökországi levelek szóállományából. Egy
Mikes-szótár elkészítését, az összes művek kritikai kiadásának
befejezését követően, Hopp Lajos is tervezte, de realitássá ez az ő
életében már nem válhatott. Mikes halálának 250. évfordulójához
közeledve azonban az MTA Irodalomtudományi Intézetének XVIII. századi
osztályán OTKA-pályázat keretében 2010 áprilisában elkezdődött a
munka, amelynek célja Mikes Kelemen teljes szókincsének feldolgozása
elektronikus írói szótár formájában. A kutatás vezetője Tüskés Gábor;
Horváth Katalin és Szathmári István szakmai tanácsadóként segíti a
munkát, a lexikológiai feladatokat e cikk szerzője végzi.
A magyar szótárirodalomban több írói szótár áll
rendelkezésünkre: többek között a Balassi-, a Zrínyi-, a Petőfi-, és a
Juhász Gyula-szótár. A kötetek terjedelmi kötöttségek és a
kezelhetőség szempontja miatt – a Petőfi-szótár kivételével – nem
tartalmazzák a feldolgozott korpusz teljes anyagát; a jelentéseket
példázó idézetek és a további előfordulások száma egyaránt erősen
korlátozott. Emellett szükségessé vált számos további, terjedelmet
csökkentő megoldás és bonyolult utalórendszer kialakítása. A most
készülő Mikes-szótárban az elektronikus feldolgozás lehetőségeinek
köszönhetően nem korlátozzuk a jelentéseket illusztráló idézetek
számát, s lehetőség nyílik a szavak, szókapcsolatok összes
előfordulásának visszakeresésére.
Ezzel nemcsak mennyiségileg, hanem minőségileg is
új, ma még csak részben ismert lehetőségek nyílnak meg mind a
történeti nyelvészeti, mind a stílus-, irodalom- és eszmetörténeti
kutatások előtt. Ez egyedülálló alkalmat ad nemcsak a nyelvhasználat
és a stílus sajátosságainak, valamint e sajátosságok változásának
megfigyelésére, hanem elősegíti az író világképét érintő összetettebb
kérdések megválaszolását is. Különösen fontos e kutatás nyelv- és
szótörténeti jelentősége, hiszen az 1772 előtti időszak történeti
nyelvészeti, szótörténeti-frazeológiai feldolgozottsága nagyon
hiányos. A munka hiánypótló mind az anyag mennyisége, mind filológiai
igényessége szempontjából, amely nemcsak a Mikes-kutatás számára
hozhat új eredményeket, hanem a középmagyar kor nyelvész kutatóinak is
hiteles és bő forrásanyagot nyújt. A Mikes-szótár a már elkészült
Zrínyi-szótárral együtt két egymást követő évszázad irodalmi nyelvéről
adhat átfogó képet két kiemelkedő író munkásságán keresztül.
A szótár alapjául az 1966–1988 között megjelent
kritikai kiadás szolgál, amely hat kötetben mintegy 6000 oldalnyi
nyomtatott szöveget tartalmaz. Nagy értéke a leendő szótárnak –
különösen, ha figyelembe vesszük az eddigi magyar nyelvű írói
szótárakat –, hogy a teljes életművet a kritikai kiadás alapján
dolgozzuk fel. Ezzel a filológiai, nyelvészeti, esztétikai és más
jellegű kutatásoknak is megbízható elektronikus szövegbázisát
teremtjük meg.
A munka főbb állomásai a következők: a szövegek
elektronikus rögzítése, ellenőrzése; a címszólista elkészítése;
előszerkesztés; a jelentésszerkezet kialakítása; a címszóval alkotott
szókapcsolatok bemutatása.
A szótárkészítésben korábban alkalmazott
hosszadalmas és a kézi másolás miatt pontatlan cédulázást mára
felváltotta számos gyors és hatékony számítógépes szövegfeldolgozási
eszköz. A számítógép a munkálatok több fontos és időigényes részében
ad megbízható segítséget, amilyen például a szövegek elektronikus
rögzítése. Annak érdekében, hogy a nyomtatott szövegek a számítógépen
is rendelkezésünkre álljanak és szerkeszthetők legyenek,
munkacsoportunk a kötetek szkennelését követően az Abbyy FineReader
szövegfelismertető szoftvert alkalmazta, majd korrektúrázta a
felismertetett szövegeket.
A szövegfelismertető szoftver beállításait sokáig
teszteltük, mire elértük az optimális eredményt, az oldalankénti
négy-öt hibát. A régi szöveg sajátos központozása, helyesírási
egyenetlensége, a névelővel egybeírt szóalakok, az egybe- és különírás
variánsai, a kis- és nagybetűk maitól eltérő használata mind
nehezítették a szövegfelismertetést. A korrektúra során a 6000
oldalnyi szöveget összeolvastuk a felismertetett szöveggel, s
javítottuk a hibákat. A nyomtatásban is olvashatatlan, illetőleg
nyomdahibás szövegrészleteket a kéziratokból és mikrofilmről
javítottuk.
2011 eleje óta rendelkezünk Mikes műveinek betűhív
átiratával elektronikus formában, amely a MEK honlapján mindenki
számára elérhető (URL1). A szövegek elektronikus rögzítését a MEK-kel
kötött együttműködési megállapodás keretében végeztük.
A szótári munkában nélkülözhetetlen, hogy a
rendelkezésre álló szövegkorpusznak ne csak egy-egy adott szavára
tudjunk keresni, hanem az ugyanolyan funkcióban álló, a szócikkíráshoz
szükséges tartalmi elemeket is ki tudjuk gyűjteni, és
csoportosíthassuk ezeket. E célból a szövegbe különféle
jelölőelemeket, ún. tag-eket, címkéket illesztettünk be. A következő
egységeket címkéztük: versbetétek, címek, idegen nyelvű
szövegrészletek, margináliák, rövidítések, idézetek,
fordításrészletek. Példán szemléltetve:
„Az elsö példa ajudás két fiárol vagyon; ennek
apátriárkának négy fia volt. a kik közül. akét elsö igen gonosz, és
rosz erkölcsü volt. ihon mit mond az irás az elsöröl, Heröl.
{foreign}fuit quoque Her primogenitus juda. nequam in Conspectu
Domini., et ab eo occisus est,{/foreign} {translated lang=”latin”}Her
judásnak az elsö fia, igen gonosz volt I sten elött. meg is ölte
ötet,{/translated} amásodikárol, onánrol. mindgyárt azután azt mondgya
az irás, hogy az Isten meg verte ötet halálal, mert utálatos vétket
tselekedet., {foreign}Id circo percussit eum Dominus, eo quod rem
detestabilem faceret,{/foreign} ez avétek, noha oly utálatos Isten
elöt., és oly nagy büntetésel büntetetik meg, mindazon által. igen
közönséges az ifiak közöt. amelyért gyakorta szál reájok az Isten
haragja. láthato, vagy láthatatlan képen.”
A korrektúrázott és címkékkel ellátott szövegből
adatbázist készítettünk. Ez a rendszer már önmagában is többszempontú
vizsgálatra alkalmas. Kereshetünk egy szó összes előfordulására, de
kijelölhetjük azokat a műveket, amelyekben keresni szeretnénk. Akár
több szó kapcsolatát is megjelölhetjük az „és”, „vagy”, „kizáró” stb.
logikai formákkal. Azzal, hogy Mikes összes műveiből elektronikus
adatbázist készítettünk, eddig kiaknázatlan vizsgálati lehetőségek
nyílnak meg, s új eredmények várhatók a szövegkutatás terén.
Az adatbázis mellett rendelkezésünkre állnak
különféle gyakorisági listák is. Ezeket az egységes címkézésnek
köszönhetően tudtuk létrehozni. A különböző típusú szóstatisztikákból
megtudhatjuk például, hogy az ún. tartalmatlan szavakon (például: a,
az, és, hogy stb.) túlmenően a tartalmas szavak közül Mikes
legtöbbször a szent szót használta, rögtön ezt követi a gyakorisági
sorban az Isten, de a sor elején állnak még a nagy, Kristus szavak is.
A gyakorisági értékeket a művek szerint is megkaphatjuk. Elkészült a
konkordancialista, ami a szótárkészítés alapja. Ebben a szövegkorpusz
a ragozott szóalakokra bontva található, s a ragozott alakokat rövid
szövegkörnyezet illusztrálja. Így például:
bánhatik – 3 (ragozott alak, előfordulások száma) /
és hogy ezekel is ugy bánhatik az Isten, (TL 71) / hogy minden
jovainkal ugy bánhatik valamint néki tettzik, (KJÉ 634) / azzal
szabad, és azzal szabadosan bánhatik, (IJE 110) ( A példamondatokat
zárójelben a műcím rövidítése és az oldalszám követi.)
bánhatnak – 1 / midön az emberekel gonoszul nem
bánhatnak, arra kérék akristust. (KJÉ 634)
A digitálisan rögzített szövegekből további
előzetes számadatok is kiolvashatók. Így például a szövegszavak (Mikes
összes művének összes szava) száma: kb. 1,5 millió. Ehhez
összehasonlításként érdemes megemlíteni, hogy A magyar nyelv
nagyszótárának számítógépes szövegkorpusza kb. 25 millió szövegszó, a
készülő József Attila-szótár anyaga kb. 340 ezer szövegszó. Ha a
teljes konkordancialistát kinyomtatnánk, az kb. 50 ezer oldalnyi
terjedelmet tenne ki. A különböző típusú ragozott alakok (szóalakok)
száma: 162 ezer. Az 50 feletti előfordulással rendelkező szóalakok
száma: 1352. Eddigi becsléseink alapján összesen kb. 10–15 ezer címszó
lesz majd a szótárban. Ha ezt a mennyiséget összevetjük a szövegszavak
számával, láthatjuk, hogy az egy címszóhoz tartozó előfordulások száma
viszonylag nagy. Érdemes azonban megjegyezni, hogy jelentős
különbségek vannak a szavak gyakorisági értékei között. Tudjuk
például, hogy összesen 258 be igekötős címszó lesz a szótárban.
A következő s egyben jelenleg is folyó munkafázis a
címszólista-készítés és előszerkesztés. A címszólista készítésének fő
szempontja az egy címszóhoz sorolandó szavak rendszerszerű
csoportosítása. A teljesség elvéhez híven nem válogatunk a címszavak
között, s minden mikesi szó önálló címszó lesz mai formájában. A
címszólista elkészítéséhez a konkordancialistát használjuk fel. A
konkordancialista a ragozott
|
|
szóalakokból és a hozzájuk tartozó összes
szóelőfordulásból áll. Minden szóelőforduláshoz egy mondatnyi
szövegkörnyezet tartozik. A címszavasítás menete kötött: az azonos
ragozási formájú, toldalékolású szóelőfordulások alkotják a szóalakot.
A szóalakokból meghatározzuk az alak- vagy írásváltozati címszót,
amelyből több is lehet, majd ezekből megalkotjuk a szótári címszót.
Példával illusztrálva:
háború – szótári címszó
haboru – alak- vagy írásváltozati címszó
haborutul – szóalak
Gabriel menyböl. Üdvözle Istentöl., Öriz haborutul.
Évátol vett jajtul (KG 555) – [szóelőfordulás a rövid
szövegkörnyezettel, zárójelben a forrásmegjelöléssel (KG 555 =
Keresztényi Gondolatok 555. o.)]
Az eljárás viszonylag egyszerű, ám az említett kb.
50 ezer oldalnyi anyag összes példamondatát át kell nézni, s a
megfelelő helyre tenni. Az erre a munkafolyamatra kidolgozott ún.
lemmatizáló szoftverek (pl. WordCruncher) nagy hibahatárokkal
dolgoznak, s adaptálásuk számos nehézségbe ütközött volna, ezért
elvetettük ezek alkalmazását. Külön nehézséget jelentenek a maitól
eltérő formák, például a különírt igekötők (meg halván), a különírt
toldalékok (leg csudálatosab), az összetett igei szerkezetek (meg vala
mondva), a névelővel egybeírt névszók (ahit), valamint a régies
névszói egybe-, illetve különírási módozatok (dus gazdag) stb. Azért
van szükség erre a munkára, mert egy-egy szónak nagyon sok alak-,
illetve írásváltozata van, amelyeket a korpuszban nem, vagy csak
hosszas kereséssel találnánk meg. A módszer előnye, hogy a
címszavasítás mellett egyben előszerkesztés is folyik, mivel az egy
címszóhoz tartozó összes alak- és írásváltozat, különböző
toldalékolású forma az ezeket tartalmazó példamondatokkal együtt már
most egy szócikkben található. A különböző státuszú szavak (címszó,
alakváltozatok, szóalakok stb.) típusonkénti címkézése lehetővé teszi,
hogy a teljes szövegkorpuszból e funkciók alapján ki tudjuk gyűjteni
és rendszerezni tudjuk a szavakat.
A címszavak mai alakjának meghatározásában
segítségünkre vannak az értelmező szótárak, a tájszótárak, a
helyesírási szótárak, az idegen szavak szótárai, valamint különféle
vallástörténeti és szaklexikonok. Ha az adott címszó más szótárban
(beleértve a kb. 25 millió szövegszavas nagyszótári számítógépes
szövegkorpuszt) nem fordul elő, azt külön megjelöljük. Ezek a szavak
alkotják az igazi nyelvtörténeti, lexikográfiai kincseket: Mikes ún.
nem szótárazott szavai, mint például a dívánvezér, dölénkezik,
drágafű. Más nyelvtörténeti újdonságok is várhatók: a gimnázium szónak
például az etimológiai szótárakban 1787-es az első előfordulása,
Mikestől viszont már 1754-ből van rá adatunk.
A szókészletről készülő különféle mutatók lehetővé
teszik az összevetést a korábbi és későbbi korok szövegeiből készült
hasonló típusú összeállításokkal. A mutatók révén többek között új
adatokhoz juthatunk az összehasonlított szerzők egyéni nyelvének
szókészletéről és a magyar szókincs változásáról. Már a munkának ebben
a fázisában megtudhatjuk, hogy az életműben az összes szóhoz mérten
milyen az egyes szavak gyakorisági (akár művenkénti) eloszlása, és
Mikes nyelve mennyire tér el a köznyelvitől. Példán szemléltetve: a
dohány, dohányos, dohányoz, dohányozás, dohányozhat, dohányozni,
dohányzik szócsalád egyedül a Törökországi levelek-ben fordul elő.
Ugyanakkor a dorbézolás, dorgálás és ezek egyéb alakjai csak vallásos
tárgyú művekben szerepelnek. Megvizsgálhatjuk, hogy konkrét szavak
hogyan jelennek meg az összetételekben és a szóképzésben: például
császár, császárné, császárság, császárválasztás. Ezek alapján
megfigyelhetjük az ugyanabba a szócsaládba tartozó alakok művenkénti
eloszlását, például a döglött a Törökországi levelek-ben fordul elő,
míg a döghalál a vallásos művekben. Kigyűjthetjük a címszavak alak- és
írásváltozatait, mint például a Galilea tizenhat alakváltozatát:
Galilaea, galilaea, Galilaéa, galilaéa, Galilea, galilea, Galiléa,
galiléa, galliéa, Gallilaea, gallilaea, Galliláea, Gallilea, gallilea,
Galliléa, galliléa. A szókincsstatisztikából kiderül, hogy a már-már
tartalmatlannak tartott dolog, cselekszik, cselekedni családja népes,
míg a csinál arányaiban jóval szerényebb az előbbiekhez képest.
Ugyanakkor a dicsőség, dicsőséges kifejezetten nagy számban fordul elő
a mikesi szókincsben. Elemezhető a szinonimák használata: például a
csecsemő, csecsszopó közel azonos eloszlású a mikesi életműben. A
készülő szótár alapul szolgálhat eszme- és művelődéstörténeti
kutatásoknak. Megvizsgálhatók a szavak többek között az alábbi
területekről: étkezés, például csokoládé, csokoládécsinálás, dinnye,
dió, cseresznye; egyházi terminológia, például dalmatika, Dominus
Vobiscum; történelmi szakkifejezések, például díván;
helységnévhasználat, például dantzka. Értékes adatokat kaphatunk az
idegen szavak használatáról, például deskripció, dialektika, diárium,
diskurzus, doktrína.
A szóösszetételi határok jelölése révén nemcsak az
összetett szavakra, hanem az elő- és utótagok szerint is kereshetünk a
címszavak között. Lehetőség nyílik arra, hogy mélyrehatóan
megvizsgáljuk az összetételeket és szerkezettípusaikat.
Helyesírás-történeti szempontból elemezhető az alak- és írásváltozatok
eloszlása, a mondattagolás alakulása.
Már ebből a vázlatos áttekintésből is kirajzolódik
Mikes tipikus szókapcsolatainak a köre. Ezek módszeres vizsgálatával
közelebb juthatunk nyelvezetének megismeréséhez, például gondolván +
lenni, jelző + gondviselésel, gyengeségekre/gyengeségére valo nézve.
A további munka során először a címszavakba rendezett anyagot fogjuk
elektronikusan kereshető formában közzétenni. A tervezett megoldás egy
többosztatú felületen, a címszó, az alakváltozatok, a szóalakok, a
szóelőfordulások és a bővebb szövegkörnyezet bemutatásával,
számadatokkal teszi könnyebbé a további feldolgozást. A szóanyag az
imént felsorolt kategóriák szerint lesz csoportosítható, s a különböző
keresési lehetőségekkel önmagában is egyedülálló forrásbázist kínál a
további kutatásoknak. A munka eredményeként a 1,5 millió szavas mikesi
életmű részleteiben és egészében is könnyebben kezelhetővé válik.
Példa:
Címszókeresés: dézsma*
Találatok: dézsma, dézsmabor, dézsmál
Alakváltozat(ok): dézma bor
Szóalak(ok): dézma borrol
Szóelőfordulás(ok): hagymárol, és a dézma borrol
kivánna irni a feleséginek (TL 40)
Az eddigi eredmények alapján létrehoztunk egy
kísérleti weboldalt, ahová folyamatosan fogjuk feltölteni az elkészült
anyagokat. Mivel az internetfelhasználók többnyire nemcsak passzív
befogadói a weboldalakon lévő információknak, hanem észrevételeikkel
maguk is bővíthetik az olvasottakat, a Mikes-szótár internetes
változatában mi is ezt szeretnénk alkalmazni: a szócikkeknél lehetőség
lesz arra, hogy a felhasználók szakmai megjegyzéseket tehessenek.
Például egy adott szónál utalhatnak a hozzá kapcsolódó szótörténeti
forrásmunkákra, folyóiratcikkekre, de más tudományterületről származó
szakirodalmi hivatkozásokat vagy egyéb szakmai megjegyzéseket is
feltüntethetnek. Az ilyen típusú megjegyzések nem férnek bele egy zárt
szócikkstruktúrába, de a megfelelő helyen közölve alaposabb
vizsgálatra hívhatják fel a figyelmet, s bővíthetik ismereteinket.
Mikes szöveganyagából kiindulva ezáltal egy átfogó, több
tudományterületet érintő, a szűkebb értelemben vett szótáron messze
túlmutató, sokoldalú forrásbázis jöhet létre.
A szótár a fentieken túl kiegészül a jelentések
bemutatásával és a frazeológiával. A címszavakra és alakváltozataikra
egyaránt kereshetünk, s megismerhetjük a jelentésszerkezetet az összes
példamondattal együtt, ahonnan a teljes korpusz is elérhető. Végül
megtalálhatjuk a szócikkvégi utalásokat és a frazeológia blokkját.
Példa:
Címszókeresés: galamb*
Találatok: galamb, galambárus, galambtojás
Címszó, alakváltozat(ok): galamb|árus fn 2 galamb
arus 2
Szóalakok: galamb arusok 2
Jelentések, példamondatok: ‚az a személy, aki
galambokat árul, azokkal kereskedik’: / apénz váltok asztalit, és a
galamb arusok székeit, fel fordittá. (É 195) / fel forditá a pénz
váltok asztalit. és agalamb arusok székeit. (KJÉ 721)
Mikes életműve ma már nem, vagy csak nehezen
érthető nyelvi magyarázatok nélkül, s nyelvének értékei igen gyakran
rejtve maradnak az olvasó előtt. A szótár hozzájárulhat a XVIII.
század első felét felölelő időszak nyelvezetének
szótörténeti-etimológiai, alak- és mondattörténeti, dialektológiai,
stilisztikai és irodalmi nyelvi vizsgálatához, mivel az elektronikus
feldolgozásnak köszönhetően teljes egészében elénk állítja Mikes
életművét és nyelvi hagyatékát. A szótár az életmű több szempontú
feldolgozásához adhat hatékony segítséget, s egyben segédeszköze lehet
a magasabb szintű középiskolai és egyetemi oktatásnak.
Kulcsszavak: Mikes, szótár, korpusz, szó, elektronikus, nyelv,
internet
IRODALOM
Dömötör Adrienne (2011): Nyelvtörténet,
nyelvváltozat, adatbázis. In: Hegedűs Orsolya – Psenáková Ildikó
(szerk.): Tudomány az oktatásért – oktatás a tudományért. I.
Univerzita Konstantína Filozofa v Nitre, Fakulta stredoeurópskych
stúdií, Nitra
URL1
* Készült a K 81.337 sz. OTKA-pályázat
keretében.
<
|
|