Magyar Tudomány, 2003/12 1486. o.

A neumanni örökség tanulságai

Csirik János

a matematikai tudomány doktora, egyetemi tanár, Szegedi Tudományegyetem, Számítógépes Algoritmusok és Mesterséges Intelligencia Tanszék

Gépi megértés


"… a megértés utáni sóvárgásunk feneketlen kúthoz hasonlatos."

Niels Bohr1

Bevezetés

Mit jelent a megértés? Mikor mondhatjuk azt, hogy megértettünk egy mondatot, szöveget, szabályt, eseményt vagy tételt? A megértés mibenléte a filozófia és a szaktudományok egyik alapkérdése ma is, amelyre az aktuális válasz nagyon sokféle, például attól függően, hogy melyik tudomány milyen paradigmájáról van szó. A probléma rendkívüli komplexitását, illetve gyakorlati jelentőségét is érzékeltetendő utalunk a közelmúlt egyik negatív szenzációt keltő hazai eseményére, a PISA 2000 (Program for International Student Assessment) nemzetközi vizsgálatban részt vevő magyar tanulók gyenge szereplésére (OECD, 2001). A PISA 2000 az OECD koordinálásával háromévente végzendő mérések első része, amely 2000-ben a tizenöt éves tanulók szövegmegértésének színvonalát vizsgálta. A vizsgálatot előkészítő kutatók a szövegek megértésének három összetevőjét különböztették meg: 1) az információ visszakeresését, 2) a szöveg értelmezését 3) és a szöveg értékelését. Ebben a koncepcióban tehát a három részterület együtt alapozza meg a szöveg megértését. A PISA vizsgálat magyar eredményeinek értékelésekor az alacsony teljesítmények egyik okának az tűnik, hogy a magyar iskolákban - a sikeresen szereplő országokkal ellentétben - kevés figyelmet fordítunk arra, hogy a tanulók az elolvasottakat rendesen feldolgozzák, megértsék. Az eredmények kapcsán a magyar oktatásügyben és oktatáskutatásban újra középpontba került a kérdés: mit is értünk egy szöveg megértésén?

A címben jelzett "gépi megértés" az informatika egyik fontos területének, a mesterséges intelligencia kutatásának is az egyik központi kategóriája. Mint ahogyan a mesterséges intelligencia is a természetes, emberi intelligenciához képest kapta az elnevezését, úgy a gépi megértést is elsősorban az emberi megértéshez szokás viszonyítani, illetve az ahhoz képesti "teljesítménye" szerint értelmezni. Írásunkban - terjedelmi okokból - csak arra törekedhettünk, hogy a mesterséges intelligencia változó megértés-fogalmát, a természetes nyelvi szövegek feldolgozásával, megértésével kapcsolatos legfontosabb kutatási irányait és azok fontosabb eredményeit röviden vázoljuk.

A Turing-teszttől a kínai szobáig

A szöveg megértéséhez hasonló kérdések hosszú ideje foglalkoztatják a mesterséges intelligenciát kutatókat, hiszen lényegében a modern számítógépek megszületése, vagyis az 1940-es évek óta az egyik alapvető kérdés az, hogy milyen emberi tevékenységeket lehet számítógéppel is elvégeztetni. A kérdés a lehető legáltalánosabban fogalmazódott meg, és a választ az úgynevezett Turing-teszt (Turing, 1950) adta meg. Ez lényegében a következő kísérletet jelenti: tegyük fel, hogy egy számítógépes terminál előtt ülő kísérletvezető két zárt szobával áll kapcsolatban. A két szoba egyikében egy ember, a másikban egy számítógép adja a feltett kérdésekre a válaszokat. Amennyiben egy meghatározott ideig a kísérletvezető nem tudja eldönteni, melyik szobában van a számítógép, akkor az kiállta a Turing-próbát, vagyis jól utánozta az embert. A Turing-próba által megválaszolt kérdés természetesen jóval általánosabb e cikk témájánál, de részfeladatként tartalmazza azt is.

Az ún. teljes (mély) szövegmegértés-vizsgálatok egyik kiindulópontja John McCarthynak egy, 1976-ból származó feljegyzése, amelyben meghatározta, mikor fogadhatnánk el, hogy egy számítógép ténylegesen megértett egy szöveget. A feljegyzés egy, a New York Times-ból származó idézetet és igen nagyszámú, ehhez közvetve vagy közvetlenül kapcsolódó kérdést tartalmaz (URL1). Mai szemmel nézve eléggé természetesnek tűnik, hogy még a jelenlegi, e célra készült rendszerek sincsenek a közelében sem annak, hogy a kérdések nagyobb részére megfelelő válaszokat adjanak, nemhogy az akkoriak. A szerző mindezzel együtt akkoriban azt feltételezte, hogy a publikálást követő húsz évben a megoldás közelébe juthatnak a számítógépek. Mi lehetett az oka optimizmusának, és milyen okai lehetnek annak, hogy a fejlődés mégsem az akkor elvárt sebességgel halad?

Az optimizmusra valószínűleg az adhatott okot, hogy a hetvenes évekig a mesterséges intelligenciát kutatóknak már sok részterületen igen látványos eredményeket sikerült elérniük. Itt csupán két ilyen eredményt szeretnék említeni. Az egyik az Allen Newell és társai által készített Logic Theorist (Newell et al., 1957) program, amelynek sikerült Alfred North Whitehead és Bertrand Russell Principia Mathematicája első fejezetének jó néhány tételét automatikus eljárásokkal bebizonyítania, miközben apróbb pontatlanságokat is talált az eredeti könyvbeli bizonyításokban. A program feladata abból állt, hogy meg kellett értenie a szövegeket (tudniillik a bebizonyítandó tételeket), majd egy hozzájuk kapcsolódó egyszerű kérdésre (igaz-e a tétel?) kellett választ, magyarázatot találnia. Négy évtizeddel később, visszatekintve a feladatra és megoldására, megállapítható, hogy a sikeres megoldás kulcsa abban rejlett, hogy a válaszhoz szükséges háttérismeret (világtudás) nagyon korlátozott volt: csupán az adott matematikai diszciplína néhány axiómáját tartalmazta.

A másik példa a Joseph Weizenbaum által készített ELIZA nevű program (Weizenbaum, 1965), amely egy kliensorientált (Carl Rogerst követő) pszichológust kívánt utánozni. A kísérleti személy által begépelt válaszokra a program újabb kérdést tett fel, vagy megjegyzést fűzött az előző válaszhoz. Az így lezajló "beszélgetések" egy része valószínűleg kiállja a Turing-tesztet, de nyilvánvalóan könnyen jutunk olyan beszélgetésrészletekhez, amelyek annyira együgyűnek tűnnek, hogy kételyeink támadnak, hogy ezt valóban egy pszichológus mondta/írta-e. Mi volt az ELIZA sikerének titka? A programnak lényegében két nagyobb része volt: egy viszonylag egyszerű nyelvtani elemző és egy mintatár, a mintaillesztő eljárással. A nyelvtani elemző a begépelt szöveg összetevőit határozta meg, míg a mintatár egy kliensorientált pszichológusnál szokásos beszélgetéstípusokat tartalmazott. A kérdéseire kapott válaszok elemzése során a program ezek valamelyikét próbálta meg felismerni, majd alkalmazni. Amennyiben ez nem sikerült, egy semmitmondó "Mondjon erről egy kicsit többet" jellegű mondattal leplezte tudatlanságát.

Megértett-e valamit a Logic Theorist vagy az ELIZA? Nem túl egyszerű erre válaszolni. Pontosabban: az ELIZA esetében egyszerű azt állítani, hogy a program a kísérleti személy problémáit nem értette meg, csupán azzal próbálta meg a szerepkörét megoldani, hogy a kritikusnak vélhető irányba terelte a beszélgetést (amit adott helyzetben az adott iskolát képviselő pszichológus is tett volna). Ezt nagyon nehezen lehetne megértésnek nevezni. Nehezebb a helyzet a Logic Theorist esetében: a program - igaz, nagyon szűk területen - olyan következtetéseket vont le, amelyek nemcsak a mindennapi embereknek, hanem az adott szakterületen tanuló egyetemi hallgatók egy részének is nehézséget okoztak volna. Megértette-e a számítógép azt a (különben nehéz) problémát, amelyet sikeresen megoldott? Ez a kérdés elvezet bennünket a mesterséges intelligencia egyik legizgalmasabb filozófiai kérdéséhez, amelyet a John R. Searle által kigondolt "kínai szoba" kísérlettel mutatunk be (Searle, 1980).

A kísérleti személy egy szobában ül, nagyon sok, számára érthetetlen jeleket tartalmazó lappal és egy angolul írt szabályrendszerrel. A szoba egyetlen ablakkal kapcsolódik a külvilághoz - ebben az ablakban időnként az ugyancsak érthetetlen jeleket tartalmazó lapok jelennek meg. Kísérleti alanyunk e jelek láttán megnézi szabályait, és kikeresi, majd felmutatja a rendelkezésre álló lapok közül azokat, amelyeket a szabályok megjelölnek. Az analógia világos: az érthetetlen jelek a kínai írásjelek, a szabályok a kínai nyelv szabályai. Az is világos, hogy személyünket könnyen helyettesíthetjük egy számítógéppel. Feltételezve, hogy a szabályrendszer elkészíthető, és valamennyi írásjel rendelkezésünkre áll, olyan rendszert készíthetünk, amelyik adott esetben még a Turing-tesztet is kiállja. A kérdés tehát az, hogy ért-e személyünk (számítógépünk) kínaiul? Searle válasza határozottan nemleges erre a kérdésre, vagyis ő a Turing-teszt teljesítését még nem tekinti megértésnek.

Szakértői rendszerek és további fejlődési irányok

Az elmúlt évtizedekben sorozatban készültek olyan rendszerek, amelyek egy-egy (szűkebb) alkalmazási területen a mindennapi gyakorlatba is bekerültek. Ezeket a rendszereket egy látványos elő- és utófeldolgozóval: egy beszédmegértő és egy beszédgeneráló modullal látták el. Ez biztosította, hogy beszélt nyelven lehessen kérdéseket feltenni a számítógépeknek, és hogy azok "élőszóval" válaszoljanak is. Ilyen rendszerek készültek például időjárás-előrejelzési információk megadására (JUPITER), repülőgép-menetrend felvilágosításra (PEGASUS), városi információk szolgáltatására (VOYAGER) és más gyakorlati feladatokra. Itt tehát nagy megbízhatósággal működő, a mindennapi életben használható programrendszerekről van szó, amelyeknek valamilyen szinten meg kell érteniük a kérdéseket, és azokra válaszokat kell előállítaniuk. Részterületükre, tudáshátterükre vonatkozóan többségük valószínűleg kiállja a Turing-tesztet.

Ezek az alkalmazások elvezettek oda, hogy egyrészt újra felmerült az általánosabb rendszerek készítésének igénye, másrészt viszonylag egységes álláspont alakult ki arról a modellről, amelynek a segítségével közelebb juthatunk a számítógépes megértéshez. Világossá vált, hogy a folyamatot - egymáshoz szorosan kapcsolódó - részekre kell bontanunk, és az egyes részek megoldásainak egymáshoz kapcsolásával kell a teljes megoldáshoz eljutnunk. A legfontosabb részek a szavak jelentésének és az egyes mondatok szerkezetének meghatározása, illetve a mondatok, nagyobb szerkezeti egységek jelentésének megadása. Ezt az elemzési utat követték a korábban említett szűkebb alkalmazások is.

Az említett területek mindegyikén jelentős eredmények születtek az elmúlt időszakban. A szavak esetében igen nagy méretű számítógépes korpuszok keletkeztek: az egyik leggyakrabban használt angol nyelvű "szótár", a Brown-korpusz (URL2) mintegy egymillió feldolgozott szóból áll. A Magyar Nemzeti Szövegtár (URL3) százmilliós nagyságrendű, bár valamivel kisebb mértékben feldolgozott. Itt a cél az, hogy a szövegekben előforduló többértelmű szavakhoz kapcsolják az adott szövegkörnyezetben érvényes tényleges jelentésüket. Ezeket az információkat felhasználva lehet új szövegek esetében a többértelműséget feloldani. A mondatok szintaxisára nézve elkészült a Brown- (és néhány további) korpusz mondatainak szintaktikai elemzése, az ún. Penn Treebank (URL4). Ilyen elemzés a Magyar Nemzeti Szövegtárra még nem készült el, csupán a jóval kisebb, mintegy 1 millió szót tartalmazó Szeged Korpusznak (URL5) van elérhető, a főnévi szerkezeteket jelölő verziója.

A legizgalmasabb kísérletek jelenleg a szemantikához közvetlenebbül kapcsolódó területeken folynak. Ezek olyan tudásbázisok kiépítésére koncentrálnak, amelyekben az a cél, hogy az emberi tudás minél nagyobb részét formálisan is rögzítsék. Ennek egyik legfontosabb előkészítő része a Berkeley Egyetemen folyó FrameNet projekt (URL6), melynek keretében a British National Corpusból (URL7) kiindulva olyan fogalomrendszer kialakítása folyik, amelyben szinonímahalmazokkal kísérlik meg az egyes fogalmakat körülírni, jellemezni. Még ambiciózusabb célt fogalmazott meg a kilencvenes években indult CYC projekt (URL8), amely egy átlagos tizennyolc éves amerikai polgár ismeretanyagának tárolását tűzte ki célul. Sajnos, Magyarországon ilyen méretű tudásbázisok kiépítése még nem indult el.

Mire lesz ez elég, milyen messze juthatunk a szöveges információk számítógépes megértésében, ha ezek az előkészületek sikeresen lezárulnak? Valószínűleg nagyon sok idő telik még el addig, amíg akár csak a Turing-tesztet teljesítő általános szövegmegértők elkészülnek. Ugyanakkor további fontos előrelépést jelentene a gépi megértés fejlődésében, ha sikerülne olyan működőképes rendszereket készíteni, amelyek nem csupán egy előre definiált részterületen, hanem általánosabban is alkalmasak szövegek intelligens feldolgozására, információk kinyerésére. Ez minden bizonnyal új fejezetet nyitna a weben tárolt információk feldolgozásában.


Kulcsszavak: kínai szoba, megértés, mesterséges intelligencia, számítógépes korpuszok, szemantika, szövegértés, Turing-teszt


1 Idézi Werner Heisenberg A rész és az egész című önéletrajzi írásában, Gondolat, Bp., 1978. 189. p.


Irodalom

Newell, Allen - Shaw, J. C. - Simon, Herbert A. (1957): Empirical Explorations with the Logic Theory Machine. in Proceedings of the Western Joint Computer Conference. 15, 218-239

OECD (2001): Knowledge and Skills for Life - First Results from PISA 2000, Paris

Searle, John R. (1980): Minds, Brains and Programs. Behavioral and Brain Sciences, 3, 417-457

Turing, Alan M. (1950): Computing Machinary and Intelligence. Mind. 59, 433-460

Weizenbaum, Joseph (1965): ELIZA - A Computerprogram for the Study of Natural Language Communication between Man and Machine. Communications of ACM, 9, 36-45

URL1.: http://www-formal.stanford.edu/jmc/mrhug.html

URL2.: http://www.hit.uib.no/icame/brown/bcm.html

URL3.: http://corpus.nytud.hu/mnsz

URL4.: http://www.cis.upenn.edu/~treebank/home.html

URL5.: http://nlserv.inf.u-szeged.hu/

URL6.: http://www.icsi.berkeley.edu/~framenet

URL7.: http://www.hcu.ox.ac.uk/BNC

URL8.: http://www.cyc.com


<-- Vissza a 2003/12 szám tartalomjegyzékére
<-- Vissza a Magyar Tudomány honlapra
[Információk] [Tartalom] [Akaprint Kft.]