Nem tudjuk mi történt ezzel a férfiúval,
Mózessel, ki minket Egyiptomból kihozott
2 Móz. 32.1.
0. Bevezetés
A Magyar Tudomány 2009/9 számában hozza a Noam Chomsky 80.
születésnapjára a Nyelvtudományi Intézetben 2008 decemberében
rendezett szimpózium anyagát. A „vita Chomsky jelentőségéről” (WEBCÍM
>) annyiban természetesen
illuzórikus, hogy Chomsky jelentőségét, érdemeit (el)vitatni nem
lehet, nincs a kortárs nyelvészek közt egy sem, akinek ilyen erős,
szerteágazó és tartós hatása lett volna. A sok dicsérő, sőt időnként
magasztalásba hajló írás közt éppen ezért némileg furcsán hat Kálmán
László kijelentése: „A számítógépes nyelvészet főáramában a
generativizmuson alapuló modelleket nem találunk. A szabályalapú
megközelítések általában is sikertelennek bizonyultak.”
Ebben a cikkben (szakmaibb, jegyzetekkel ellátott
változatát lásd
WEBCÍM >)
azt próbáljuk meg körüljárni, hogy miként történhetett ez meg. Hogy
lehet, hogy Chomsky gondolatait ma éppen a nagyrészt általa elindított
formális/számítógépes/matematikai nyelvészetben veszik legkevésbé
komolyan? Kálmán szerint ennek egyik alapvető oka Chomsky
antiempirista hozzáállása (melyet igen frappáns idézetekkel
dokumentál), de szerintünk az igazi ok mélyebben van, és Chomsky
munkásságának matematikai tartalmát figyelmen kívül hagyva nem is
érthető.
A címben feltett kérdés körüljárását azzal kezdjük,
hogy egy kicsit pontosabban megnézzük, mi a rekurzivitás és mi a
nyelv. Természetesen ha rekurzión csak annyit értünk, hogy valamilyen
konfiguráció ismétlődik, ismétlődhet, akkor a válasz triviális. Ilyen
ismétlődésre jó példa a koordináció, hiszen a Láttuk Jánost és Pétert
és Zolit és … konstrukció addig terjeszthető, amíg ki nem fogyunk a
lélegzetből. (A leghosszabb ilyen mondat állítólag a második
világháború végén az arlingtoni nemzeti temetőben hangzott el, ahol
felolvasták a hősi halottak névsorát.) Hogy tovább tudjunk lépni ezen
a trivialitáson, a rekurzivitás a matematikában megszokott
definíciójánál maradunk: rekurzíve felsorolható az, amire Turing-gépet
(Turing Machine – TM) be lehet programozni. Azok, akik a
Turing-gépeket elsősorban a logikából ismerik (emlékeztetőül: a
Turing-gép egy végtelen szalagból és az ennek mozgatását/írását/
olvasását szabályozó véges kontroll-automatából áll), gyakran hozzá
vannak szokva, hogy ezek (bináris) számokon operálnak. Alan Turing
eredeti definíciója ezt a megkötést nem tartalmazza: a szalagra
tetszőleges véges szimbólumhalmaz elemeit írhatjuk. Egy rögzített TM
által megadott formális nyelv azon füzérek halmaza, melyeket a gép
szalagjára írva a program véges idő alatt vagy megáll úgy, hogy a
szalag üres (üres szalaggal való elfogadás), vagy kitüntetett
állapotok valamelyikébe kerül (állapothalmazzal való elfogadás), vagy
egy előre rögzített füzér, illetve erre a célra fenntartott
OK-szimbólum kiírásával reagál (jelzéssel való elfogadás). Bár egy
adott nyelvhez természetesen másféleképpen kell programozni a TM-et,
aszerint, hogy melyik elfogadás-definíciót választjuk, összességében a
TM-ek által megadható (Chomsky terminológiájával: nullás típusú)
nyelvek halmazát ez a döntés nem befolyásolja.
A nyelv fogalmának alapos, mind filozófiai, mind
nyelvészeti szempontból kielégítő definíciója messzire vezetne, de
céljainkhoz ez nem is szükséges, hiszen matematikai kérdést csupán
matematikai objektumokról lehet feltenni. A formális nyelv a
természetes nyelvek Chomsky által bevezetett matematikai modellje: a
nyelvészeti alkalmazásokban az ábécé elemeire gyakran mint a
természetes nyelv fonémáira (általában néhány tucat elem), illetve
szófajaira (gyakran többezer elem) gondolunk. A természetes nyelvről
fontos plusz információ, amit most első közelítésben elhanyagolunk,
hogy a szavak és nagyobb konstrukciók közt különféle kapcsolatok
állhatnak fenn, és hogy a szavaknak/mondatoknak mérhető
gyakoriságuk/valószínűségük van. A formális nyelvekről immár formális
szigorúsággal felvethető az a kérdés, hogy vajon végesek vagy
végtelenek, és ha végtelenek, akkor rekurzívak-e?
A kérdés, ha nem is egészen ebben a formában,
egyidős a formális nyelvészeti kutatással, melynek alapjait még Pānini
(i. e. 520–460) vetette meg, nagyjából két évszázaddal az előtt, hogy
Euklidész megvetette a matematika alapjait. A Mahābhāshya (Nagy
Kommentár) az első fennmaradt Pānini-magyarázat, i. e. 200 körülről. A
bevezető részben a szerző, Patañjali azzal kezdi, hogy egyszerűbb a
helyes (grammatikus) alakokat felsorolni, mint a helyteleneket, majd
azt a kérdést veti fel, hogy hogyan kell ezt megcsinálni: szedjük
listába a helyes alakokat? Nem, ez túlságosan nehéz lenne. Mert mint
tudjuk, Brhaspati (az istenek tanára) ezer égi évig (360 ezer földi
évig) tanított Indrának egy olyan munkát, amely felsorolta a helyes
szanszkrit kifejezéseket, és még így sem jutott a végére. Akkor hogy
lehetne most, amikor az emberek még száz nyarat sem élnek meg, ily
módon tanítani?
Igaz ugyan, hogy egy adott nyelv eddig
elhangzott/leírt mondatai véges halmazt alkotnak, de a nyelvészek
körében teljes az egyetértés (és mindig is az volt), hogy az ezen a
tényen alapuló naiv modell érdektelen, hiszen minket nemcsak egy
létező korpusz leírása érdekel, hanem az is, hogy predikciókat tegyünk
a még el nem hangzott (vagy le nem írt) mondatok halmazára nézve is.
Ha megadjuk a koordináció szabályait, például a perl, python és más
programnyelvekből ismert szabályos kifejezésekkel (regular
expressions), akkor máris egy olyan nyelvtanunk van, amely végtelen
sok, eddig még nem hallott/látott mondat elfogadhatóságára tesz
tesztelhető jóslatot. 1956 előtt a matematikusok a végtelen nyelvek
algoritmikus megadására csupán két módszert tartottak számon: a véges
automatákon (vagy ami ugyanaz, szabályos kifejezéseken) keresztüli,
illetve a Turing-gépes definíciót. A véges automaták által elfogadott
(szakszóval: hármas típusú) nyelvekre lehet úgy is gondolni, mint az
olyan TM-ek által elfogadott nyelvekre, amelyek csak olvasni tudnak,
de a szalagot nem írhatják (természetesen ehhez az állapothalmazzal
való elfogadás-definíciót kell használni). Az ilyen TM csak véges
sokféle részeredmény megjegyzésére képes, hiszen a memóriakapacitását
behatárolja a kontroll-automata (véges) állapottere.
Az egyes típust Chomsky a XIX. századi
neogrammatikus hangtörvények formalizálására általa bevezetett
környezetfüggő nyelvtan (context sensitive grammar – CSG) segítségével
írta le: ezekben a füzérek egyes elemeit a szabályok át tudják
alakítani akkor, ha az elemek környezetére bizonyos feltételek
teljesülnek. Például a magyar szavak végén a zöngétlen mássalhangzók
zöngésülnek, ha zöngés mássalhangzóval kezdődő rag (vagy szóösszetétel
második eleme) követi őket: vaskalap, vazsgolyó (ejtésben), vassal, de
vazsból. A környezetfüggő nyelvtanok ezt a tényt egy s→zs/_Z
szabállyal ragadják meg, melynek jelentése cseréld ki s-t zs-re ha
jobboldali kontextusa Zöngés. A Turing-gépek perspektívájából nézve az
egyes típust úgy nyerjük, hogy engedélyezzük az írást (a
részeredmények tárolását a gép szalagján) de csak bizonyos korlátok
közt: a TM-nek csak akkora memóriát teszünk írhatóvá, amekkora a
bemenő füzér.
A kettes típust Chomsky a közvetlen összetevős
elemzés formalizálására szintén általa bevezetett környezetfüggetlen
nyelvtan (context free grammar – CFG) segítségével definiálta. Ezekben
a nyelvtanokban szintén x→y alakú szabályok vannak, de most mindenféle
megszorítás nélkül: egy ilyen szabály mindig alkalmazható, függetlenül
attól, hogy x előtt és után milyen szimbólumok állnak. (Szigorú
értelemben itt is és az egyes típusnál is meg kell különböztetni az
ún. terminális és nemterminális szimbólumokat, ennek részleteit most
figyelmen kívül hagyjuk.) Megemlítjük, hogy ez az osztály nem zárt
komplementációra: például (legalább kételemű ábécé
fölött) az az N nyelv, amely a nem négyzetes füzérekből áll (tehát
elemei nem állnak elő xx formában, ahol x tetszőleges füzér) kettes
típusú, míg komplementuma, tehát az az I nyelv, ami pontosan a
négyzetes (xx alakú) füzérekből áll, nem lesz kettes típusú. Az
eddigieket összefoglalva már készen is áll az eredeti
Chomsky-hierarchia, melyet itt bővített formában hozunk (az eredeti
0-3-hoz itt hozzátett nyelv-, illetve nyelvtanosztályokról később lesz
szó). (1. táblázat)
E tipológia annyiban hierarchikus, hogy a csökkenő
számoknak egyre bővülő eszköztár felel meg: minden nyelv, amit le
tudunk írni 3. típusú nyelvtannal, az leírható 2. típusúval is, amit
le lehet írni 2. típusúval, az leírható 1. típusúval is, és persze
minden, amit egyáltalán le lehet írni nyelvtannal, az leírható
Turing-géppel is. Chomsky érdeme, hogy a címben felvetett triviális
kérdést egy sokkal izgalmasabbra cserélte fel: hova esnek a nyelvek a
Chomsky-hierarchiában? (amit ő természetesen még nem hívott így). De
ha egyszer ilyen jó, tartalmas kérdést tett fel, olyan formai
eszközöket kínálva, melyek egyben a mesterséges (programozási) nyelvek
elméletét is forradalmasították, akkor végül is miért vesztette el
hitelét pont a legbelsőbb szakmai körökben? Felfogásunk szerint ez
csak úgy történhetett meg, hogy a kérdésre nemcsak rossz választ
adott, hanem ahhoz kitartóan, egyre nagyobb retorikai vehemenciával
ragaszkodott akkor is, amikor a tények ennek minden irányból
ellentmondottak. Történetileg Chomsky radikális antiempiricizmusa nem
ok, hanem okozat: ha nem kvadrálnak az elmélettel, hát antul rosszabb
a tényeknek.
1. A korai szakasz: 1956–1982
Chomsky nemcsak felvetette a problémát, de úgy vélte, hogy kielégítően
meg is oldotta. Azt az állítást, hogy a harmadik típus nem elégséges a
természetes nyelvek leírásához, az ún. középponti beágyazás
(center-embedding) jelenségével indokolta: matematikailag
bebizonyította, hogy az olyan CF-nyelvtanok, amelyek megengednek X→aXb
alakú levezetést (ahol tehát a végeredményben a kiinduló X a és b közé
beágyazva jelenik meg) szükségképpen túllépnek a 3. típuson (e kikötés
nélkül ez nem igaz, CF, azaz 2. típusú nyelvtan is generálhat olyan
nyelvet, amely szabályos kifejezésekkel, azaz 3. típusú nyelvtannal is
megadhatók) majd rámutatott, hogy az angolban a vonatkozói
mellékmondatok középponti beágyazott helyzetben is megjelenhetnek: a
rat that stole the cheese, a cat a woman loves, the cheese that a rat
(that a cat (that a woman loves) chased) stole. A Mondattani
szerkezetek (1957, magyarul 1999) ezért írja, hogy „Nemcsak nehéz, de
lehetetlen olyan [véges automatát] létrehozni, amely az angol nyelv
valamennyi nyelvtanilag helyes mondatát létrehozná, és csak azokat.
[…] E tétel azt állítja, hogy a nyelv […] Markov-folyamat koncepciója
elfogadhatatlan, legalábbis a nyelvtan céljaira.” (Chomsky, 1957, 24.)
Az érvelés nyelvtani része, különösen a zárójelezés
nélkül gyakorlatilag érthetetlen: the cheese that a rat that a cat
that a woman loves chased stole már annak idején is sok vitát váltott
ki, erre a kérdésre majd a 2.1 szakaszban térünk vissza. Chomsky
(1957) nem sok kétséget hagyott a felől sem, hogy szerinte a
CF-nyelvtanok sem elégségesek a feladathoz: „[A CF-nyelvtanok] angol
nyelvre történő alkalmazásának korlátait tovább vizsgálva, meggyőzően
igazolható, hogy ezek a nyelvtanok olyan reménytelenül bonyolultak,
hogy teljesen érdektelenné válnak, hacsak nem építünk beléjük
[transzformációkat].” (Chomsky, 1957, 50.)
A korai szakaszban ezt az érvelést
szinte mindenki elfogadta, sőt nem egyszerűen elfogadta, hanem mint a
XX. századi nyelvtudomány legnagyobb felfedezését ünnepelte: „The
single most important contribution to the development of linguistic
theory in the [20th] century is [the demonstration of] the inadequacy
of CFGs as a model of linguistic structure.”1
(Selkirk, 1977)
A tét nagy: ha sikerül általános matematikai
formulákkal leírni a nyelvtanilag helyes mondatok generálási
szabályait, akkor hatalmas lépést tettünk a gépi fordítás, a géppel
történő dialógus, az automatikus szövegkezelés felé. Patañjali teljes
joggal elvárhatta olvasóitól a védikus bölcsesség ismeretét és
feltétel nélküli elfogadását, de a modern nyelvészektől már kicsit
furcsábbnak tűnik a mert mint tudjuk érv használata. E korszak végét
Geoffrey Pullum és Gerald Gazdar (1982) ma már klasszikus „meztelen a
király” cikke jelzi (Pullum – Gazdar, 1982, 471–504), melyben sorra
vették az irodalomban fellelhető érveket, és egyenként kimutatták
róluk, hogy tarthatatlanok, méghozzá három egymással gyakran
összefüggő hiba miatt. Ezek közül az első és legfontosabb az, hogy
időről időre 1. az eredeti érvelés matematikailag hibás. Erre jó példa
Chomsky saját érvelése, ami azon a jelenségen alapul, hogy az angolban
a középfokú összehasonlításban nem szeretjük, ha ugyanazzal
hasonlítunk: This desk is wider than that chair is tall de *This desk
is wider than that chair is wide. Ez utóbb esetben inkább az
összehasonlítás alapját képező NP törlésével dolgozunk: This desk is
wider than that one. Hogy ez a „nem szeretjük” mit jelent, arra majd
később visszatérünk (Pullum és Gazdar igen szórakoztatóan írnak arról,
ahogy Chomsky később megváltoztatta az itt még csillaggal hozott
mondatok grammatikalitásáról való véleményét), most fogadjuk el, hogy
a jelenség valóban így igaz. A baj az, hogy az így kijelölt N nyelv
nem ellenpélda CF-nyelvre, csak a komplementuma, I lenne az, de a
CF-család nem zárt komplementumra! Quandoque bonus dormitat Homerus.
A második, hasonlóan gyilkos ellenérv az, hogy 2.
Az eredeti érvelés összekeveri a szintaxist a szemantikával. Ezt most
Zwicky (1963) példáján illusztráljuk, amely a trillió, kvadrillió,
kvintillió (trilliárd, kvadrilliárd, kvintilliárd) és hasonló nagy
számok nyelvi kifejezésén alapul. Nem tudjuk, mi a legnagyobb ilyen,
de nem is fontos, hogy elkötelezzük magunkat egy konkrét -illió (vagy
-illiárd) mellett, legyen a zillió a legnagyobb szótári szó, ami
1000n-t fejez ki. Ennek a négyzete egyzillió zillió. Még ennél is
nagyobb szám az egyzillió zillió egyzillió egy. De az *egyzillió
egyzillió zillió nem legális számnév, mert a nagyobb
zillió-hatványokat kell előbb mondani.
{p1 zn1p2 zn2…prznr|nj>nj+1}NEM
CF
A probléma az, hogy ez nem nyelvtani, hanem
matematikai tudás. Későn sajátítjuk el, és nem is mindenki tudja, aki
egyébként kompetens anyanyelvi beszélő. Ugyanez a baj a híres
respectively konstrukción alapuló érveléssel is, mely szerint a John,
Mary, and Bill are a widower, widow, and widower respectively típusú
mondatokban, ha csupán a nem szerint egyértelmű keresztnevekre
szorítkozunk, és elvárjuk hogy widower csak hímnemű, a widow csak
nőnemű legyen, akkor a grammatikus mondatok halmazát az xx halmazba
tudjuk képezni, ahol x tetszőleges füzér a kételemű hímnem, nőnem
halmaz felett (tehát a nem-CF I nyelvet nyerjük).
Külön hangsúlyozzuk, hogy a nyelvtan nem törődik a
tényekkel; az a mondat, hogy Einstein was a great physician
grammatikailag ugyanolyan helyes mint az, hogy Einstein was a great
physicist bár tényszerűleg az egyik igaz, a másik hamis. Az Anna
özvegyember mondat valóban nehezen értelmezhető (hacsak nem Boris
Viannál találjuk) de ebben a nehézséget nem a mondatszerkezet, hanem a
világról való ismereteinkkel való összeférhetetlenség okozza. Igen, de
nem lenne elképzelhető olyan nyelv, ahol a nem szerinti egyeztetés nem
szemantikai, hanem grammatikai kérdés? Miután pontosan tudjuk, hogy
számtalan ilyen nyelv van, a respectively-n alapuló érvelés esetleg az
angolban nem, de mondjuk, a spanyolban tarthatónak tűnik. A probléma
az, hogy nyelvtani alapon már a két felsorolás hosszúságának
megegyezése sem garantálható, hiszen a Going left to right, the last
two people in the line are John and Bill respectively mondat helyes,
szemantikailag is és grammatikailag is, pedig a respectively-vel
összekapcsolt felsorolások nem tartalmaznak ugyanannyi elemet, hiszen
a baloldalt egyetlen NP, the last two people, áll szemben a jobboldalt
két NP-vel, John and Bill.
A harmadik ellenérv annyiban hasonló az elsőhöz,
hogy ez is egy matematikai hibát pécéz ki: 3. az eredeti érvelés
empirikusan lyukas. Általában ahhoz, hogy egy nyelv nem-CF voltát
igazoljuk, nem elég rámutatni egy nem-CF résznyelvre, mert a
Chomsky-hierarchia nem zárt tartalmazásra, egy nem-CF nyelv résznyelve
is lehet CF, és egy CF-nyelv résznyelve is lehet nem-CF (és hasonlóan
a hierarchia többi tagjára, a véges nyelvek családjának kivételével).
A problémát az egyik legkorábban felfedezett és legizgalmasabb
jelenségkör, a mohawk főnév-inkorporáció (Postal, 1964) erősen
egyszerűsített változatán illusztráljuk. A nyelvészetben szokatlan
módon elhagyjuk az eredeti mohawk példamondatokat és csupán
magyarított glosszákat adunk (az eredeti mondatok megtalálhatók Paul
Postalnál és kritikusainál). A mohawk nyelv a tárgyas ige tárgyát
gyakran megismétli az igei csoportba beépítve: Nekem ház-tetszik a ház
„Tetszik a ház”. Az inkorporált elem lehet pronominalizált formában
is: Nekem idea-tetszik ez „Egyetértek ezzel”. Postal azt állította,
hogy az inkorporált főnév megegyezik az inkorporálatlan (külső)
tárggyal, a mohawk tehát I nyelv. Igen ám, de az általa vizsgált nem
az egyetlen inkorporatív konstrukció, be lehet építeni teljes birtokos
szerkezeteket is: Nekem János-ház-tetszik János ház ‘Tetszik János
háza’. Ez még nem lenne baj, de az ilyen szerkezetekből a birtokos
elhagyható: Nekem ház-tetszik János ‘Tetszik János háza’, és ez
betölti a lyukakat, a nyelv tehát végső soron nem I jellegű. Már itt
megjegyezzük, hogy a mohawk egyik legalaposabb leíró nyelvésze, Floyd
Lounsbury szerint az érvelés eleve fiktív annyiban, hogy az
inkorporáció nem iterálható, a kétszeres inkorporálásnál az egyik tő
mindig egy idióma része, de ez most a birtokos szerkezet által
felszínre hozott probléma szempontjából közömbös, a jelenségre később
térünk majd vissza.
2. Az elszakadás időszaka: 1982–2000
Geofrey Pullum és Gerald Gazdar cikke csupán negatív érveket hozott,
és retorikailag nyitva is hagyta a kérdést, hogy vajon a második
Chomsky-típusba beleférnek-e a természetes nyelvek. Sokkal fontosabb
volt, hogy ezek a szerzők megalapozták az általánosított
frázis-struktúra nyelvtan (generalized phrase structure grammar –
GPSG) elméletét, amelyben a nehéz, mindaddig a természetes nyelvek
nem-CFL voltának igazolására használt nyelvi problémákat, mint például
a hosszú távú függőség (unbounded dependecy), sorra oldották meg. De
nem tartott sokáig, amíg megjelentek az új érvek, elsősorban Stuart
Shieber (1985) a svájci némettel foglalkozó, Christopher Culy (1985) a
bambara nyelvvel foglalkozó, és Kenneth Beesley és Lauri Karttunen
(2000) a malájjal foglalkozó cikkei – ez utóbbi érdekessége, hogy nem
a szintaxisban, hanem már egy lépéssel előbb, a morfológiában (ahol z
füzérek a szavak, az ábécé pedig a morfémák) mutat nem-CF
konstrukciót.
Elődeikkel ellentétben ezek a munkák már
matematikailag hibátlanok, tisztán nyelvtani (nem pedig szemantikai)
tényeken alapulnak, és empirikusan sem lyukasak. Ez azonban nem
jelenti azt, hogy a kérdést végképp eldöntik, hiszen másfajta
gyengeségeik azért még lehetnek, és mint látni fogjuk, vannak is. A
modern ellenérvek két nagy csoportra oszthatók, egyrészt a
megfigyelhető bizonytalan grammatikai státus, a „nem szeretjük” körüli
problémák, ezekről korlátozott iterativitás néven beszélek a 2.1
részben, másrészt a nagyon kis gyakoriság okozta problémák, lásd 2.2.
Egy kicsit előreugorva megjegyezzük, hogy ezek az ellenérvek egyben a
klasszikus középponti beágyazási példákat is kilövik, így nemcsak a 2.
osztály elégtelensége, hanem az ennél jóval kisebb 3. osztály
elégtelensége (és ezzel Chomsky eredeti, a Markov-modellezéssel
szembeni dörgedelmei) is kérdésessé válnak. De mielőtt erre rátérnénk
(lásd 3.), lássuk a modern ellenérveket részletesebben.
|
|
2.1 Bizonytalan grammaticitás,
korlátozott iterativitás
A klasszikus generatív felfogásban éles dichotómia van a grammatikus
(OK) és az agrammatikus (*) mondatok közt. Hogy egy konkrét kifejezés
hova esik, azt a nyelvész intuíciója (illetve az anyanyelvi informáns)
dönti el. Sajnos a Shieber, Culy és mások által vizsgált szerkezetek
mindegyike nagyon hamar olyan kifejezésekhez vezet, ahol a
nyelvész/informáns intuíciója elbizonytalanodik. Ezt az önmagában
érdekes tényt Chomsky (1965) a performancia és a kompetencia közti
megkülönböztetéssel próbálta magyarázni, de nyitva hagyta azt a
kérdést, hogy ha a beszélők fejében lévő grammatikai apparátus olyan
nagyon komplex, akkor miért pont ezek a kifejezések okoznak
nehézséget, míg egyéb tetszőlegesen nagyra növelhető konstrukciók
(mint a koordináció) nem.
Az általános performancia-probléma fontos speciális
esete az, amit itt korlátozott iterativitásnak fogunk nevezni, lássuk
ezt egy egyszerű beágyazási példán. Tekintsük először elemi
kijelentések valamilyen S halmazát: Meleg van, esik az eső, kigyulladt
a ház…, majd kezdjük el bővíteni ezt attitűdöt kifejező
kijelentésekkel: Az hogy S (az) hazugság/egy nagy
hülyeség/biztos/kétségbeejtő/…
Az első iterációban egészen rendes, értelmes magyar
mondatokat nyerünk: Az hogy esik az eső az kétségbeejtő, az hogy
kigyulladt a ház az hazugság,... Mindez valamiféle S→Th S (D) Att
szabály felvételét indokolja, ahol Th az „Az hogy” formatíva, D az
„Az” formatíva, Att pedig az attitüdinális kifejezések „kacsa,
hétszentség, elszomorító, …” gyűjteménye. A második iterációban ezek a
szabályok már különös eredményeket hoznak: ??Az hogy az hogy meleg van
az kacsa az elszomorító – mit is jelent ez? Hát, vidámabbak lennénk,
ha a hír nem lenne kacsa (hanem tényleg meleg lenne). Ez még talán
rendben is van, bár a kognitív folyamat már inkább a rejtvényfejtésre,
mint a szokásos nyelvi megértésre emlékeztet. De ha még
egyszer-kétszer iterálunk, az amúgy olyan remekül működő
mondatelemzőnk végképp fejreáll: ????Az hogy az hogy az hogy esik az
eső az bizonytalan az hétszentség az hazugság, és csak a
rejtvényfejtés marad.
A középponti beágyazás hamar kivezet az emberi
ésszel felfogható (és előállítható) mondatok köréből: ezt találjuk más
nyelveknél és más konstrukcióknál is. Fred Karlsson (2007) tizenhat
nyelvre kiterjedő vizsgálatai szerint az írott nyelvben maximum
háromszoros, a beszélt nyelvben maximum kétszeres beágyazást találunk.
Ez hát egy erős, jól replikálható nyelvi jelenség, és ha ezt tudjuk,
mindegy is, hogy a kompetencia vagy a performancia részének tekintjük.
Chomsky (1965) még elsősorban azért különítette el a kompetenciát a
performanciától (ezzel nagy, évtizedekig nem csillapuló módszertani
vihart kavarva) hogy a középponti beágyazások korlátozott
iterativitását átsorolhassa a performanciába, és ezáltal (hiszen
minket mint nyelvészeket a kompetencia modellezése jobban érdekel)
fenntarthasson egy olyan idealizációt, ami kivezet a szabályos
kifejezések közül. De ebben a formában az érvelés már nem meggyőző: ha
egyszer a naiv matematikai modell, ami az iterálást egyáltalán nem
korlátozza, a tényektől épp egy ilyen kritikus ponton tér el, akkor
célszerűbbnek tűnik a modellt finomítani, például ellátni egy olyan
számlálóval, ami legfeljebb egyszeres vagy kétszeres iterációt
engedélyez. Tulajdonképpen mindegy is, hogy hánynak választjuk ezt a d
iterációs korlátot, kettőnek vagy ötnek, hiszen a kétszer és az ötször
iterált konstrukciók közötti különbséghalmazban már csak marginális
(grammatikailag kétes és szemantikailag csak igen nehezen
értelmezhető) füzérek lesznek.
2.2 Gyakoriság
A klasszikus érvelés (Chomsky, 1957, 2.4) szerint a nyelvtan világában
a gyakoriság nem számít, hiszen colorless green ideas sleep furiously
és furiously sleep ideas green colorless egyaránt nulla gyakoriságúak,
de előbbi grammatikus, utóbbi pedig nem. Ha ez igaz, a grammaticitás
nem jellemezhető valószínűséggel, hiszen itt mindkét példa gyakorisága
nulla. A tudomány történetének különös fintora (bővebben lásd Pereira,
2000), hogy ezt a minden matematikusnak azonnal láthatóan hibás
érvelést a szakma évtizedekig nem tudta, nem merte megkérdőjelezni.
Hol a hiba? Ott, hogy a nulla empirikus frekvenciából nem következik
nulla valószínűség.
Természetesen mindkét mondatnak nagyon kicsi a
valószínűsége. Ez már abból is kiderül, ha a mért szógyakoriságokat
egymástól függetlennek tekintő (unigram) modellt vesszük, hiszen ekkor
a mért szógyakoriságokat összeszorozva 2,14×10-25 körüli értéket
nyerünk – ebből már látható, hogy mindenképpen nagyon nagy mintára
lenne szükség ahhoz, hogy az ilyen jellegű mondatok előbukkanjanak. Ha
most a nyilván túlságos egyszerűsítést jelentő függetlenségi feltevést
elhagyjuk (annál is inkább, hiszen az unigram modellek még nem
különítik el a szavak permutálásával nyert füzérekre jósolt
valószínűségeket), és szópárokon, szóhármasokon alapuló (bigram,
trigram) modelleket veszünk, akkor a két mondat valószínűségére egyre
inkább eltérő értékeket kapunk. A híres példában a két valószínűség
hányadosa mintegy 2×105, tehát a Chomsky által
grammatikusnak ítélt változat mintegy kétszázezerszer valószínűbb
agrammatikus társánál. Ezen az intervallumon belül bárhol (tehát
meglepően robosztusan) meghúzhatjuk a határt úgy, hogy a colorless
green ideas sleep furiously grammatikusnak, a furiously sleep ideas
green colorless pedig agrammatikusnak minősüljön, pusztán
valószínűsége alapján. Igaz ugyan, hogy ezt a valószínűséget
matematikai modelljeink csupán becsülni tudják, direkt méréséhez nem
áll rendelkezésünkre elégséges minta, de ez módszertanilag épp oly
kevéssé zavar minket, mint az, hogy a nap belsejének a hőmérsékletét
sem tudjuk hőmérővel megmérni.
Gyakran találkozunk a fenti hibás érvelés
konverzével is, mely szerint „a bizonyíték hiánya nem a hiány
bizonyítéka” – abból, hogy egy kifejezést a korpuszban nem találunk
meg, még nem tudjuk megmondani, hogy a kifejezés csak ritka vagy
tényleg agrammatikus. Ha ez igaz, akkor az intuícióra (akár a
nyelvészére, akár az informánséra) való hivatkozás a nyelvészet
kikerülhetetlen része. Természetesen ez az érv ugyanúgy nem állja meg
a helyét, mint az előző. Hol a hiba? Vegyük például azt az érdekes
jelenséget, hogy az angol cost igének nincs passzívuma: The book cost
thirty dollars. *Thirty dollars were cost(ed) by the book. Való igaz,
hogy a passzívum hiányát nyelvi intuíciónk világosan jelzi – a fentebb
tárgyalt példákkal ellentétben itt senki nem fog a csillagok
elhelyezésén vitatkozni. De tényleg csak az jelzi? Anatol
Stefanowitsch (2006) az alábbi kétszer kettes kontingencia-táblát
közli:
|
Passive |
Active |
Total |
cost |
0 |
63 |
63 |
-cost |
13,861 |
122,627 |
136,488 |
Total |
13,861 |
122,690 |
136,551 |
Ebből bármilyen megszokott statisztikai teszttel
(például Fisher–Yates) kiszámolható, hogy a bal felső sarokban álló
nulla nem véletlen nulla, az a tény, hogy a cost esetén nem találunk
passzív alakot szignifikáns (p<0.01). Külön figyelmet érdemel az, hogy
a statisztikai és a performancia-alapú megfontolások igen hasonló
eredményre vezetnek: ha csak annyit teszünk fel, hogy az S→Th S (D)
Att szabály mondjuk 1/1000 valószínűséggel működik, akkor
iterációjának már csak egy a millióhoz, kétszeri iterációjának már
csak egy a milliárdhoz az esélye.
2.3 A fennmaradó esetek
Bár a CFG-ellenpéldák eredeti bestiáriumából nem sok maradt, van mégis
egy olyan konstrukció a hollandban, amelyre már Rini Huybregts (1976)
felhívta a figyelmet (ez mind szinkron nyelvtanát, mind történeti
kialakulását tekintve közeli rokona a Stuart Shieber (1985) tárgyalta
svájci német példának), és amely változatlanul sok fejtörést okoz,
annak ellenére, hogy mint füzérhalmaz (stringset) környezetfüggetlen.
A holland hogy-os mellékmondatok szórendjét, beágyazott infinitivális
tárgyak esetén, kereszteződő szerkezet jellemzi:
… dat Jan de kinderen zag zwemmen
hogy Jan a gyerek.PL lát.PAST úszik.INF
hogy Jan látta a gyerekeket úszni
… dat Piet de kinderen hielp zwemmen
hogy Piet a gyerek.PL segít.PAST úszik.INF
hogy Piet segítette a gyerekeket úszni
… dat Marie de kinderen liet zwemmen
hogy Marie a gyerek.PL küld.PAST úszik.INF
hogy Marie elküldte a gyerekeket úszni
A kereszteződés (crossed dependency) azt jelenti,
hogy a dependenst a fejjel összekötő gráf élek (például Jan és lát
illetve gyerek és úszik közt) keresztezik egymást, hiszen nem a gyerek
lát és Jan úszik hanem épp fordítva. Az ilyen szerkezeteket rekurzíve
egymásba is lehet helyettesíteni (2.
táblázat).
Igaz, hogy a nyelv CF (anbn), de a struktúra
nyilván nem az, mert az i-edik a az i-edik b-hez kapcsolódik, nem
pedig az n−i-edikhez, míg egy CF-nyelvtan, például S→aSb;S→ab ez
utóbbi struktúrát állítaná elő. Ezeket a tényeket Chomsky és
tanítványai a mozgatószabályok (transzformációk) cáfolhatatlan
bizonyítékának tekintették, de már csak ők tekintették annak, mert a
más forrásból (elsősorban a kategoriális grammatika elméletéből)
merítő modern matematikai nyelvészet számos alternatív eljárást
dolgozott ki az ilyen esetek kezelésére: itt csak a beillesztés
(wrap), a fa-adjunkció (tree adjunction), és a kombinátoros
kategoriális nyelvtan (combinatory categorial grammar) módszereit
említem. Külön érdekesség, hogy ezeknek az egymástól gyökeresen eltérő
eljárásoknak mindnek van olyan variánsa, amelyik ugyanahhoz az enyhén
környezetfüggő (mildly context sensitive) nyelvosztályhoz vezet,
melynek a fenti táblázatban a másfeles típusszámot adtuk.
3. Nébó hegyén: 2000–
Az enyhe környezetfüggés fogalmával a kiinduló kérdésünk körüli vita
annyiban nyugvópontra jutott, hogy ennél bővebbet ma senki nem javasol
a természetes nyelvek kezelésére, maga Chomsky sem, akinek
„minimalista” elmélete ugyancsak egy enyhén környezetfüggő osztályra
mutat. Tudományszociológiailag azonban nem elhanyagolható az a tény,
hogy a Chomsky-hierarchiában a CFG-nél bővebb, de a CSG-nél szűkebb
nyelv- és nyelvtanosztályok szisztematikus vizsgálatát nem Chomsky,
hanem a kortárs matematikai nyelvészet legnagyobb alakjának tartott
Aravind Joshi kezdeményezte, és a legfontosabb előzmény, a lineáris
indexált nyelvtanok, sem a nyelvészetből, hanem a
számítógéptudományból indult, abból a formális programelemzésből
(compiler design), melynek alapjait indirekte még Chomsky vetette meg.
A minimalizmus a Chomsky-tanítványok körében sem talált egyértelműen
lelkes fogadtatásra, sőt vannnak, akik egyenesen miszticizmussal
vádolják Chomskyt az elmélet alapját adó tökély-hipotézist
(perfection) ilyeténképp jellemezve:
Imagine a biologist specializing in human
physiology announcing that (…) his work is motivated by two related
questions: (1) what are the general conditions that the human urinary
tract should be expected to satisfy? , and (2) to what extent is the
urinary tract determined by these conditions, without special
structure that lies beyond them? The first question in turn has two
aspects: what conditions are imposed on the urinary tract system by
virtue of (A) its place within the array of physiological
systems of the body and (B) general considerations of conceptual
naturalness that have some independent plausibility, namely
simplicity, economy, symmetry, non-redundancy, and the like?
It seems to us, and we suspect would to the great
majority of working physiologists, that to ask what conditions the
human urinary tract should be expected to satisfy makes no sense
whatsoever. (…) Why then would one expect that it makes any more sense
with ‘language faculty’ substituted for ‘urinary tract’?2
(Lappin et al., 2000)
Messzire vinne annak vizsgálata, hogy Chomskynak ma
mekkora hatása van az elméleti nyelvtudományon belül a szintaxis
kutatóira, de azt gondoljuk, e hatás máig jelentős (az idézet szerzői
szerint jóval nagyobb, mint azt a nyelvtan tényei indokolnák).
Bennünket most az a kérdés érdekel, hogy az elméleti nyelvtudománytól
távolabb álló, a nyelvtan számítógépes modellezésére törekvő kutatók
miért szakadtak el a Chomsky által kijelölt kutatási iránytól, hisz az
új elmélet, a generatív grammatika a kezdeti időszakban elsősorban az
ő körükben hódított.
A legfontosabb tényező kétségkívül az, hogy eltelt
negyven év, és a sok bolyongás után a csapat, vagy legalábbis az
előörse, megérkezett az ígéret földjére. A beszédmegértés és
-szintézis technológiája különösebb csinnadratta nélkül a mindennapi
élet részévé vált: ma már gyakran emberi beavatkozás nélkül kapunk a
telefonba feltett kérdésre választ, és a szakértők sem tudják
megkülönböztetni, még műszeres elemzéssel sem, a mesterséges és a
természetes beszédet. Minden szoftverboltban kapható olyan program,
ami a PC-ből beszédbemenetű írógépet csinál – a
tudományos-fantasztikus jóslatok csak azt nem látták előre, hogy ezek
nem válnak közkeletűvé, hanem elsősorban a gépelni nem tudó csökkent
mozgásképességűek számára jelentenek majd fontos segítséget. Ma már
nem ritka, hogy az ilyesfajta ‘voice command’ rendszerek jobban értik
a súlyosan torzult beszédű beteget közvetlen (emberi) környezeténél;
nemcsak az ápolójánál, de még az édesanyjánál is.
Különösen fontos tudni Chomsky jelenlegi
visszhangtalanságának megértéséhez, hogy ezek a számítógépes programok
éppen azokon a Markov-modelleken (tehát a legegyszerűbb, hármas
osztályba tartozó rendszereken) alapulnak, amelyektől Chomsky és
George Miller (Miller – Chomsky, 1963, 419–491.) kivont karddal védték
az elméleti nyelvészeket. A történet nem lenne teljes annak említése
nélkül, hogy a mindehhez a statisztikai hátteret adó George Miller (a
Princeton Egyetem nagyszerű pszichológusa, aki a klasszikus
Zipf-törvényt Benoît Mandelbrotot megelőzve vezette le egy egyszerű
‘majmok és írógépek’ modellből), végül is nem ezzel, hanem egy
tudományos szempontból ultrakonzervatívnak nevezhető elmélettel, az
Arisztotelész eszméit a számítógépes szótárszerkesztésbe átültető
WordNet rendszerrel vált a számítógépes munka egyik szellemi
vezéralakjává.
Nem tudjuk teljesen elfogadni Kálmán László fentebb
idézett megjegyzését, hogy a szabályalapú megközelítések általában is
sikertelennek bizonyultak, hiszen maradt egy terület, a szótan
(morfológia) ahol a mai számítógépes nyelvészetet domináló
tanulóalgoritmusok még messze nem olyan sikeresek, mint a képzett
fonológus/morfológus által kézzel írt szabályrendszerek. A helyzet
külön érdekessége, hogy ezek a szabályrendszerek remekül
együttműködnek a statisztikai alapú beszédfelismerő és
szintetizáló-rendszerekkel, sőt azok ma még nélkülözhetetlen részei.
De ez a fejlődés is lényegében a Chomsky által határozottan kijelölt
iránnyal ellentétes vonalú volt: míg Chomsky és Morris Halle (1968) a
környezetfüggő (egyes típusú) nyelvtanokat és a szekvenciális
szabályalkalmazást szorgalmazták, addig C. Douglas Johnson, Kimmo
Koskenniemi, Ronald M. Kaplan, Martin Kay, Lauri Karttunen, és társaik
épp a véges automaták (hármas típusú rendszerek) hatékony technikai
általánosításával, párhuzamos szabályalkalmazással értek el
eredményeket.
A történet még távolról sem ért véget, jól látjuk
ezt a gépi fordítás jelenlegi állapotán: e rendszerek jónak semmiképp
sem nevezhető, de ma már használható eredményeket hoznak. Úgy
gondoljuk, hogy itt is lassú, de feltartóztathatatlan minőségi javulás
várható, s az áhított cél, a magas színvonalú, emberi beavatkozás
nélküli szövegmegértés és -fordítás még Chomsky életében elérhető
lesz.
Kulcsszavak: Chomsky-hierarchia, formális nyelvek, nyelvtanok
IRODALOM
Beesley, Kenneth – Karttunen, Lauri
(2000): Finite-state Non-concatenative Morphotactics. In: Proceedings
of the 5th SIGPHON Workshop. 1–12.
Chomsky, Noam (1956): Three Models for the
Description of Language. I.R.E. Transactions on Information Theory
IT-2.
Chomsky, Noam (1957): Syntactic
Structures. Mouton, The Hague
Chomsky, Noam (1965): Aspects of the
Theory of Syntax. MIT Press
Chomsky, Noam and Morris Halle (1968): The
Sound Pattern of English. Harper and Row
Culy, Christopher (1985): The Complexity
of the Vocabulary of Bambara. Linguistics and Philosophy. 345–351.
Huybregts, Rini (1976): Overlapping
Dependencies in Dutch. Utrecht Working Papers in Linguistics 1. 24–65.
Joshi, Aravind (2003): Tree Adjoining
Grammars. In: Mitkov, Ruslan (ed.): Handbook of Computational
Linguistics. Oxford University Press, 483–500.
Karlsson, Fred (2007): Constraints on
Multiple Center-embedding of Clauses. Journal of Linguistics. 43, 2,
365–392.
Miller, George – Chomsky, Noam (1963):
Finitary Models of Language Users. In: Luce, Duncan – Bush, R. R. –
Galanter, E. (eds.): Handbook of Mathematical Psychology. II. Wiley,
New York, 419–491.
Pereira, Fernando (2000): Formal Grammar
and Information Theory: Together Again? Philosophical Transactions of
the Royal Society, series A. 358, 1239–1253.
Postal, Paul (1964): Constituent
Structure. Mouton, The Hague
Pullum, Geoffrey – Gazdar, Gerald (1982):
Natural Languages and Context Free Languages. Linguistics and
Philosophy. 4, 471–504.
Selkirk, Elizabeth (1977): Some Remarks on
Noun Phrase Structure. In: Culicover, Peter W. – Wasow, T. – Akmajian,
A. (eds.): Formal Syntax. Academic Press
Shieber, Stuart (1985): Evidence Against
the Context-Freeness of Natural Language. Linguistics and Philosophy.
8, 333–343.
Stefanowitsch, Anatol (2006): Negative
Evidence and the Raw Frequency Fallacy. Corpus Linguistics and
Linguistic Theory. 2, 1, 61–77
LÁBJEGYZETEK
1 A huszadik század
legeslegfontosabb hozzájárulása a nyelvtudomány fejlődéséhez annak a
bebizonyítása, hogy a környezetfüggetlen nyelvtanok alkalmatlanok a
nyelvi szerkezetek modellálására.
<
2 Képzeljünk el egy, az
emberi fiziológiára szakosodó biológust, amint kijelenti, hogy […]
munkáját két, egymással összefüggő kérdés vezérli: (1) mik azok az
általános feltételek, amelyek teljesítését elvárhatjuk az emberi
húgyúttól? és (2) milyen mértékben határozzák meg ezek a feltételek az
emberi húgyutat, figyelmen kívül hagyva a mögöttes speciális
struktúrát? Az első kérdésnek két aspektusa is van: milyen
feltételeknek van alávetve a húgyút (A) az emberi test fiziológiás
rendszerei közt betöltött helye által és (B) olyan általános fogalmi
megfontolások alapján, mint egyszerűség, gazdaságosság, szimmetria,
irredundancia és hasonlók?
Nekünk (és gyanítjuk, a fiziológiával foglalkozók nagy többségének is)
úgy tűnik, hogy semmi értelme nincs azt kérdezni, hogy a húgyútra
vonatkozóan milyen feltételek teljesülése várható el. […] Ha ez így
van, nem remélhetjük, hogy a kérdésnek több értelme lesz akkor, ha a
kérdések tárgya a húgyút helyett a nyelvi készség.
<
|
|