A Magyar Tudományos Akadémia folyóirata. Alapítva: 1840
 

KEZDŐLAP    ARCHÍVUM    IMPRESSZUM    KERESÉS


 SZÖVEG AZ OLVASÓNAK: KVANTITATÍV MÓDSZEREK

    ÉS DIGITÁLIS SHAKESPEARE-FILOLÓGIA

X

Almási Zsolt

PhD, tanszékvezető egyetemi docens,
Pázmány Péter Katolikus Egyetem Angol Nyelvű Irodalmak és Kultúrák Tanszéke
almasi.zsolt(kukac)btk.ppke.hu

 

A számítógépes technológia és módszertan az irodalomtudományban várakozásainkkal ellentétben nem oldja meg a filológiai problémákat, hanem inkább radikalizálja, és még világosabban felszínre hozza őket. Shakespeare-kutatóként a Shakespeare-filológia problémáira reflektálok, de reményem az, hogy ezeket az észrevételeket más filológiai kontextusban is adaptálni lehet. A Shakespeare-filológiában a számítógépes módszerek alkalmazásáról, a kvantitatív módszereken alapuló elemzésekről, a nagyobb szövegkorpuszokon alapuló ún. távolvasásról (distant reading) jelentősebb mennyiségű publikáció a 21. században látott napvilágot. Ezen cikkek és monográfiák meglehetősen nagy vitákat kavartak a szövegek irodalmisága, esztétikuma tekintetében, másfelől pedig módszertani, irodalomelméleti, matematikai, statisztikaelméleti kérdéseket is felvetettek. Ebbe a vitába kapcsolódik ez a tanulmány is – de más megközelítésben. A kvantitatív elemzéseket közlő cikkek eredményeit nagyon nehéz ellenőrizni, hiszen számos esetben nem világos, pontosan milyen szövegkorpuszra alapul a kutatás, az alkalmazott számítógépes módszerek, szoftverek miként működnek, milyen nyelven íródott a szoftver, és ennek a nyelvnek milyen előfeltételezéseit fogadta el a program írója. Mindezen megfontolások a Shakespeare-filológia számára fontosak, hiszen eleve egy meglehetősen képlékeny, bizonytalan szövegkorpusszal dolgozik a filológus, és ezt a bizonytalanságot tovább fokozza a számítógépes módszertan. Mivel a hagyományos publikációk keretei nem adnak lehetőséget mindezen bizonytalanságok kiküszöbölésére, ezért javaslatot szeretnék tenni egy újfajta publikációs módozatra, amely lehetőséget teremt a filológusközösségnek, hogy a publikációk eredményei ellenőrizhetőek, ismételhetőek legyenek.

A Shakespeare-kutatásban a kvantitatív módszereket stilisztikai elemzésekhez, szerzőségi kérdések (attribution studies) felvetéséhez, valamint műfajok vizsgálatához (genre studies) használják leginkább. Az utóbbira talán legjobb példa Michael Witmore és Jonathan Hope: ők „iteratív, azaz ismétlődésen alapuló irodalomtudománynak” („iterative criticism”) nevezik tudományos kutatásukat (Hope – Witmore, 2010). Ennek az a célja, hogy létrehozzanak „az angol szavak címkézéséhez egy olyan fenomenológiai alapú architektúrát – lényegileg szóhalmazok vagy szótárak gyűjteményét, mint például a DocuScope program –, amely a műfaji jellegzetességeket a mondatok szintjén mutatja meg” (Hope – Witmore, 2010, 360–361). Bizonyos nyelvi jellemzők, a szavak címkéinek és azok gyakoriságának alapján a DocuScope program segítségével csoportokba sorolják Shakespeare műveit, és ezek a csoportok szinte meglepő módon megegyeznek a művek hagyományos műfaji kategorizálásával. Ezek az eredmények azért jelentősek, mert így kiderül, hogy a műfaji besorolásnak nemcsak a cselekmény, a karakterek viselkedése szolgál alapul, hanem hasonló kézzelfogható módon a textualitás, a szavak csoportosítása és gyakorisága is.

A szerzőségi kérdések tekintetében az egyik legutóbbi könyv Hugh Craig és Arthur F. Kinney tollából és szerkesztésében jelent meg Shakespeare, Computers, and the Mystery of Authorship címmel (Craig – Kinney, 2009). Az egyértelműen Shakespeare-nek tulajdonított művekből létrehoztak egy korpuszt, és kétezer szavas szekvenciákra bontott szegmenseket vizsgálva kvantitatív módszerrel megállapították, hogy milyen lexikális jellemzők írják le ezt az anyagot. Ezzel a módszerrel a lexikális szavak gyakoriságának alapján létrehozták Shakespeare ún. markerszavainak ötszázas listáját. Hasonló módon elkészítettek egy olyan korpuszt is, amely bizonyosan más kortárs szerzők műveit tartalmazza, és itt is felállítottak egy ötszáz szavas listát kétezer szavas szekvenciák alapján. A szerzőségükben kétséges műveket vagy azok egyes kérdéses részeit elemezték ugyanezzel a módszerrel, majd megvizsgálták a proximitásukat a két korpuszhoz képest (Craig – Kinney, 2009). Az így kapott eredményeket aztán összevetették egy olyan elemzéssel, ahol ugyanezt a módszert követték, ám ebben az esetben nem a lexikális, hanem a nyelvtani szavakból állították fel a két markerlistát.

Önmagában véve nem forradalmi módszerekről és eredményekről van szó, hanem inkább arról, hogy ezek az eljárások egy szövegkorpusz-elemző hagyományba, a Shakespeare-kutatásban meglévő hagyományba illeszkednek. Ami nóvum, és ami előrelépést jelent, az a módszertan finomhangolásában rejlik, kihasználva a számítógép erejét, azaz a számoláson alapuló műveleteket, amelyek a számítógépet fáradhatatlansága és pontossága révén verhetetlenné teszik az emberi olvasóval történő összehasonlításban. Az említett szerzőpárosok – eredményeik ismertetése során – soha nem azt állítják, hogy a régi problémák megoldása a hagyomány és a korábbi kutatások figyelembe vétele nélkül történne. Úgy vélik, hogy bár a kapott vizsgálati eredmények, a statisztikai módszertan egyáltalán nem vezet meglepő és forradalmi eredményekhez, de a matematizálható tényekkel bizonyos értelmezési irányokat meg tudnak jelölni a műfaji sajátságok vagy a szerzőségi kérdések tekintetében. Mindezen megfontolások mellett azonban mindkét szerzőpárost meglehetősen sok kritika érte. Hugh és Craig módszertanát a transzparencia hiányával vádolta Peter Kirwan (Kirwan, 2010), Brian Vickers pedig a szavakon és nem a szókapcsolatokon alapuló metodikát kritizálta (Vickers, 2011). Alan Galey (2010) Hope-ot és Witmore-t bírálta az elemzett szövegek filológiai minősége miatt. A kritikák ellenére a két szerzőpáros meghatározó a matematizálható tényeken alapuló Shakespeare-kutatások terén.

A matematizálható tények kérdését, azaz a szógyakoriság problémáját tárom fel a Shakespeare-filológia tükrében. A szógyakoriság vizsgálatakor nagyon fontos szempont, hogy milyen szövegkiadást használ a kutató, hiszen a szövegben található szavakat számoltatjuk a számítógéppel. A Shakespeare-kutatásban régóta tudott, hogy bármennyire szeretnénk, sajnos nincs olyan színmű, amely esetében rendelkeznénk egy végső kézirattal, vagy egy, a szerző által jóváhagyott, nyomtatásban megjelent verzióval. Kézirat nem maradt fenn, a korai nyomtatványok még Shakespeare életében és közvetlenül utána egyes színművek esetében eltéréseket, néha nagyon jelentős különbségeket mutatnak. Ennek oka a korabeli kulturális hangulatban, a tulajdonjogi problémákban keresendő, és így a szöveget, a nyomdába szánt művet sem előtte, sem a kiadáskor nem vették féltő gonddal körül, aminek egyik kényelmetlen következménye, hogy nem hagyományozódott ránk egy végső változat. Amikor a 18. századtól a Shakespeare-i szövegeket elkezdték gondozni, azt is egyéni ízlésbeli megfontolásokkal fűszerezték a kor elvárásainak megfelelően. Azaz mára a színműveket tekintve olyan sok szövegvariáns áll a rendelkezésünkre, hogy egy kritikai kiadás készítője filológus legyen a talpán, ha azt a célt tűzi ki, hogy egy olyan szöveget állít elő a hagyomány alapján, amely minden olvasói elvárásnak megfelel.

A Shakespeare-szövegek hosszú története és ebből következő instabilitása annak ellenére, hogy közismert tény volt, a 20. század végéig valójában nem vált kulcskérdéssé, hiszen mindig készültek kritikai kiadások, amelyek valamiféle végső szövegváltozattal kecsegtettek – lehetett Hamletre utalni, maximum azt tettük hozzá, hogy most Harold Jenkins Hamlet-kiadását használjuk. A 21. századi digitális technológiának köszönhetően ma nagyon könnyen beláthatjuk az instabilitás meglétét, hiszen egy-két kattintással megtekinthetjük a korai nyomtatványokat s különféle adatbázisok segítségével a későbbi szerkesztett szövegek majdnem teljes történetét. Éppen ezért a szövegek instabilitása nem megoldásra váró probléma, nemcsak tudományosan elfogadott tény, hanem, ahogy Jowett állítja, „gondolkodásmód” (Jowett, 2009). Az, hogy milyen szövegváltozatot elemeztetünk a számítógéppel, azonban mindenképpen hatással lesz arra, hogy milyen eredményeket ad a statisztikai analízis.

Térjünk azonban vissza a matematizálható tények problémájához, és vegyük szemügyre a szavak számlálását egy példa segítségével. Érdemes kísérletet tenni a legegyszerűbb számolási adatokkal a Sok hűhó semmiért című komédiát alapul véve. Ha a nagyon kifinomult és alapos WolframAlpha (URL1) keresőfelületet használva kérdezünk le statisztikai adatokat a komédiáról, akkor sokat tanulhatunk a darabról, annak világáról a számok tükrében is. Megtudhatjuk például, hogy Dogberry jóval többet beszél, mint Hero, és hogy Beatrice jóval kevesebbet, mint Benedek, valamint, hogy hány szóból állnak az egyes jelenetek. Kiderül, melyek a leggyakrabban használt szavak, melyik a leghosszabb szó a műben, továbbá arra is fény derül, hogy az egész mű 21 183 szóból áll.

Ha azonban a WordHoard (URL2) nevű alkalmazást hívjuk segítségül, némileg eltérő adatokat kapunk. Az alkalmazás letölthető, az eredményeket könnyedén el lehet menteni a saját számítógépen. Ezt az eszközt irodalmi korpuszok elemzésére tervezték, és online hozzáfér a felcímkézett szövegkorpuszokhoz. Bár magukat a szövegeket nem lehet megtekinteni, a dokumentációból kiderül, hogy a híres Moby Shakespeare-szövegváltozatnak egy szerkesztett változatáról van szó, amely az egyik legjobb 19. századi kritikai kiadáson alapul. A WordHoard az alábbi szofisztikált szempontrendszer alapján elemzi a szöveget: szógyakoriság, kollokációk, szófajok, a beszélő neme, beszélő halandósága, vers, metrikus alakzat. Ha ebben az alkalmazásban tekintjük meg a szavak számát, akkor az eredmény 20 910 lesz.

Az eltéréseket látva egy saját készítésű egyszerű szövegelemző programmal (URL3) is megszámoltattam a szavakat. Az elemzés karakterszámlálást, szószámot, a leggyakrabban használt tíz szót és a legritkábban, azaz a műben egyetlen egyszer előforduló szavakat, illetve a kötőjellel írt összetett szavakat listázza. A szövegelemző szkript Python nyelven készült, és

 

 

bizonyos jellemzőket adottságoknak vesz. A szó valójában sztringet, üres karakterek között elhelyezkedő karaktersort jelent, ahol a karakterek szigorú bináris oppozícióban tételeződnek. A bináris oppozíció igen-nem szigorúságában ugyanannak a betűnek a nagy és kisbetűs változata külön karakternek, a sorvégi törés, whitespace ugyancsak karakternek számít.

A Sok hűhó semmiért első kvartókiadása alapján készítettem egy elemezhető szövegváltozatot. A szövegben a korabeli standardizálatlan helyesírás miatt ugyanaz a szó több betűsorként is megjelenik, de ez nem számít a szószámolásnál, csak a gyakoriságot torzítja, ám a jelen elemzés szempontjából ez a torzítás nem releváns. További probléma, hogy a sortörést a koramodern nyomdai szedő sokszor nem tudta a szóvégre pozicionálni, hanem kénytelen volt elválasztani a hosszabb szavakat. Az elválasztásnak azonban az lett a következménye, hogy az elválasztott szavak külön szavaknak, sztringeknek látszanak a gép számára. Természetesen az elválasztójelet és a sortörést is egyszerűen el lehetne távolítani a szövegből mechanikusan, ez azonban a sorszámok felborulásához vezetne. Itt sokkal egyszerűbbnek látszott kézzel eltávolítani őket a szövegből, és az elválasztás, illetve a sorhossz alapján vagy az adott, vagy a következő sorhoz csatolni az egyesített szavakat. Azért sem lehetett volna mechanikusan kitörölni a kötőjeleket, mivel bizonyos esetekben a szedő a túl hosszúnak ítélt szavakat sorközi helyzetben is kötőjellel választotta el. Ezeket a kötőjeleket nem lett volna érdemes eltávolítani. A standardizálatlanság és a sorközi kötőjelek kitörlése a szöveg történetiségének bizonyos rétegeit fedné el, tehát ez a fajta egységesítés és modernizálás nem célszerű minden esetben.

Ideális helyzetben a program megírása és a számítógéppel elemeztetendő szöveg megfelelő formátummá alakítása egyetlen ember feladata, vagy pedig egy programozó és egy filológus együttműködésén alapul. A szövegelemző alkalmazás írójának ismernie kell az elemzendő szöveg egyedi sajátosságait, hiszen ami egy szoftverfejlesztő számára adottságnak tűnik, az a filológus számára nem: minden korszak, szerző, szöveg más és más problémák elé állítja a filológust. Ugyanakkor a filológusnak is ismernie kell az adott alkalmazás jellemzőit, hiszen ennek az alkalmazásnak, a szkriptnyelv előfeltételezéseinek ismeretében lehet csak előkészíteni az elemzendő szöveget, hogy érvényes eredményeket adhasson az elemzés.

Az általam írt program szerint 22 171 szó található a Sok hűhó semmiért-ben, ami új eredmény az előzőekhez képest. A számbeli különbségeket az is indokolhatja, hogy az előzőektől eltérő szövegeket elemeztettem. A WolframAlpha esetében semmilyen információnk sincs az elemzett szövegről, bár a kvartókiadás bibliográfiai adatai jelennek meg a korabeli kiadás címlapjával együtt, ám a statisztikai adatok egy része nem ennek a szövegváltozatnak az irányába mutat. Ilyen például a felvonások és jelenetek szószámát illető adatok felsorolása, hiszen a kvartókiadás a felvonások és jelenetek felosztását nem tartalmazta. A WordHoard esetében azt tudjuk, hogy egy sokáig közismert, de mégiscsak egy 19. századi szövegkiadás némileg szerkesztett, modernizált változatával van dolgunk. Én a számítógépes olvasatra alkalmazott kvartókiadás szövegével dolgoztam.

A különböző szövegek elemzéséből adódó eltéréseket azzal kerülhetjük el, ha azonos szöveget olvastatunk a számítógéppel: tehát feltölthetjük az általam alkalmazott szövegvariánst egy független szövegelemző alkalmazásba, a Voyant Tools-ba (URL4). A Voyant Tools olyan nyílt hozzáférésű online szövegelemző eszköz, amelynek segítségével szófelhő készíthető a megfelelő formátumban feltöltött szövegről a szógyakoriság alapján, valamint statisztikai adatokat tudhatunk meg a szó- és kollokációgyakoriságról, a keresett szavak előfordulásáról a szövegben elfoglalt helyük szerint. Ebbe az alkalmazásba betöltve a szövegverziómat ismét újabb eredményt kapunk: 22 162 szót. Ez utóbbinál tehát valószínűleg nem a szövegből adódó, hanem a kódban rejlő különbségek számítanak, például, hogy mit tart az alkalmazás szónak és mit nem, hogyan dolgozza fel a kis- és nagybetűket, a kötőjellel írt szavakat, a számokat.

Amellett is érvelhetünk, hogy ezek a minimum kilenc-, maximum ezerszavas különbségek az egyes alkalmazások végeredményei között nem relevánsak. Statisztikailag az ilyen mértékű eltérések nem számottevőek, hiszen hozzávetőlegesen 21 ezer szavas szövegről van szó. A Shakespeare-kritika 2014 óta használja a good enough text (Rowe, 2014) fogalmát, ami arra utal, hogy egy hozzávetőlegesen megbízható szöveg a kutatás szempontjából, ha nem is tökéletes, de elfogadható – különösen nagy korpuszok vizsgálata esetén. A good enough text analógiájára az adott alkalmazást good enough application-nek nevezhetjük. A szöveg is és az alkalmazás is megfelelő egyfajta kutatás szempontjából, különösen, ha nagy korpuszt elemeztetünk a számítógéppel. A good enough text és a good enough application, azt gondolom, nem megoldandó probléma, mert megoldhatatlan, mint a szövegek pluralitása – ezért gondolkodásmóddá kell válnia.

Mi következik tehát mindebből? A számítógép kérlelhetetlen alapossága felszínre hoz olyan problémákat, amelyekkel a filológusnak eddig nem kellett feltétlenül számolnia. Amint számokat látunk, az egzaktság hite keríthet minket hatalmába. Ám amint a színfalak mögé tekintünk, kiderül, hogy meglehetősen sok bizonytalansági tényező alakítja az eredményeket. Shakespeare esetében először is a szövegváltozatok sokaságával kell számolni. Másodszor az alkalmazás is bizonytalansági tényező: ami érvényesen és jól működik az egyik szövegnél, az téves eredményekre vezethet egy másiknál – hiszen minden szöveg egyedi. Továbbá kiderült az is, hogy a szkriptnyelv is nyelv, amely bizonyos előfeltételezésekkel él, és amit számításba kell venni, ha egzakt eredményekre törekszünk. A szöveget nemcsak az emberi olvasónak kell elkészíteni, fogyaszthatóvá tenni, hanem a számítógép számára is. Sőt az is világossá vált, hogy amikor a gépi olvasásra előkészítünk egy szöveget, akkor bizonyos célra, bizonyos felhasználásra készítjük a szöveget, és ami egyfajta célnak megfelel, esetleg egy másiknak nem. Ez a néhány bizonytalansági tényező kiiktathatatlan, ezekkel együtt kell élni, ennek gondolkodásmóddá kell válnia. Ha ezt elfogadjuk, akkor az a fajta hagyományos publikáció, amelyhez hozzászoktunk, nem lesz alkalmas az információ közlésére. Nem elég az eredményeket összefoglalni egy cikkben, hiszen a számítógépes szövegelemzés, adatkinyerés meglehetősen bizonytalan lábakon áll a tudós közösség szempontjából, mivel egy hagyományos publikációban nem ellenőrizhetőek az eredményhez vezető módszerek és adatok.

Ebben a helyzetben az tűnik megfelelő megoldásnak, hogy hozzáférhetővé, sőt nyílt hozzáférésűvé kell tenni az eredményekhez vezető módszereket és adatokat is. A hagyományos publikáció mellett az elemzett szöveget és a kódot a megfelelő licencekkel mindenki számára elérhetővé és ellenőrizhetővé kell tenni. Ideális esetben olyan kiadásra gondolok, mint a multimédiás kiadvány vagy az értéknövelt kiadás (Karen van Godtsenhoven, 2009). Ám ezek egyelőre tervek. Ennek a hozzáférhetőségnek egy másik lehetséges módja a repozitórium használata, ahova fel lehet tölteni a szöveget a megfelelő metaadatokkal, a szerző nevével, a készítés dátumával, a nyílt forráskódú programmal, a programozó nevével. Mivel erre a kiadók nem készültek fel, sem az egyetemek nem biztosítanak ilyen repozitóriumokat, más megoldást kell találni.

Egyelőre a GitHub (URL5) nevű ingyenes szolgáltatás tűnik erre a legmegfelelőbbnek, hiszen ide munkaanyagok és metaadatok is egyaránt feltölthetők, és bárki számára hozzáférhetők. Alkalmat biztosít a közös kutatásra, megjelenítve, hogy melyik felhasználó mivel járult hozzá a munkához; továbbá a feltöltött fájlokat lemásolhatja, továbbfejlesztheti, sőt az eredeti tulajdonosa követheti is feltöltéseinek útját. Ez természetesen átmeneti megoldás, hiszen a repozitóriumot valójában a kiadóknak, esetleg a felsőoktatási intézményeknek kellene biztosítaniuk, ám amíg ez nem történik meg, a GitHub jó barátja lehet a számítógépet az irodalomtudomány gazdagítására használó kutatóknak.
 



Kulcsszavak: Shakespeare, digitális filológia, kvantitatív módszerek, digitális publikáció, Sok hűhó semmiért, digitális szövegelemzés, digitális repozitórium
 


 

IRODALOM

Craig, Hugh – Kinney, Arthur F. (eds.) (2009): Shakespeare, Computers, and the Mystery of Authorship. Cambridge University Press, New York

Galey, Alan (2010): Comments. alangaley 4 May 2010 at 12.05 am. • WEBCÍM

Godtsenhoven, Karen van et al. (2009): Emerging Standards for Enhanced Publications and Repository Technology. Survey on Technology. Amsterdam University Press, Amsterdam 15–18. • WEBCÍM

Hope, Jonathan – Witmore, Michael (2010) „The Hundredth Psalm to the Tune of “Green Sleeves”: Digital Approaches to Shakespeare’s Language of Genre”. Shakespeare Quarterly. 61, 3, 357–390. DOI: 10.1353/shq.2010.0002

Jowett, John (2007): Shakespeare and Text. Oxford University Press, Oxford-New York

Kirwan, Peter (2010): Review of Shakespeare, Computers, and the Mystery of Authorship, ed. Hugh Craig and Arthur F. Kinney. Early Theatre. 13, 1, DOI: 10.12745/et.13.1.824 • WEBCÍM

Rowe, Katherine (2014): Living with Digital Incunables, or a ’good enough’ Shakespeare Text. In: Carson, Christie – Kirwan, Peter (eds.): Shakespeare and the Digital World. Cambridge University Press, UK

Vickers, Brian (2011): Shakespeare and Authorsip Studies in the Twenty-first Century. Shakespeare Quarterly. 62, 1, 106–142. DOI: 10.1353/shq.2011.0004