A Magyar Tudományos Akadémia folyóirata. Alapítva: 1840
 

KEZDŐLAP    ARCHÍVUM    IMPRESSZUM    KERESÉS


 MAGYAR SZÓASSZOCIÁCIÓK HÁLÓZATA

X

Kovács László

PhD, Nyugat-magyarországi Egyetem Bölcsészettudományi Kar Alkalmazott Nyelvészeti Tanszék

klaszlo(kukac)btk.nyme.hu

Orosz Katalin

MSc, Eötvös Loránd Tudományegyetem Természettudományi Kar Biológiai Fizika Tanszék
oroszk(kukac)hal.elte.hu

Pollner Péter

PhD, ELTE–MTA Statisztikus és Biológiai Fizika Kutatócsoport
pollner(kukac)angel.elte.hu

 

Bevezetés


A 21. század első évtizedének egyik legjelentősebb interdiszciplináris kutatási területe a hálózatok vizsgálata. A hálózatközpontú megközelítés a természet- és társadalomtudományok számos területén az aktuális problémák újragondolását eredményezte (a témáról a Magyar Tudomány 2006/11 számában megjelent cikkgyűjteményben is olvashattunk, az érdeklődő olvasó számára néhány ismeretterjesztő könyvet említünk az irodalomjegyzékben). Jelen tanulmány ezen egyre önállóbbá váló tudományterület, a hálózatkutatás módszereivel vizsgálja egy magyar nyelvű szóasszociációs adatbázis hálózatos felépítésének jellemzőit.


Kognitív struktúra és hálózatok


Kognitív struktúrákban hálózatok meglétének és működésének feltételezése nem új keletű: a 20. század második felében Ross Quillian, majd Allan M. Collins és Elizabeth Loftus a szemantikai memóriát jellemzik hálózatként (részletesebben vö. például Kovács, 2011). Ezen eredeti elképzeléseket Timothy T. Rogers és James L. McClelland (2004) viszik tovább, megalkotva saját modelljüket, amely a PDP-(Parallel Distributed Processing; párhuzamos megosztott feldolgozás) modellek közé tartozik. Az ilyen modellek esetében a feldolgozás párhuzamosan zajló folyamatok összességének tekinthető. A mentális lexikont csúcspontok és azokat összekötő kapcsolatok hálózataként írják le az aktivációs (vagy aktivációterjedéses) modellek is. Legismertebb ezek közül a Gary S. Dell inspirálta Willem Levelt és munkatársai által kidolgozott modell (Levelt et al., 1999). Az aktivációs modellekben a hálózat elemei különböző aktivációs szintekre kerülnek beszéd, illetve beszédértés közben, azaz a beszéd vagy a beszédértés folyamata az aktív állapot terjedési folyamata a mentális lexikon egymáshoz kapcsolódó elemei között. Az aktiváció terjedése tehát – egyszerűen fogalmazva – arra utal, hogy milyen mértékben került aktivált állapotba egy adott szó a „stimulusszó” hallatán: az oroszlán szót hallva magasabb aktivációs szintre kerülhetnek a sörény, szavanna, macska szavak, de nem, vagy kevésbé aktivizálódnak a hajkorona és zuhatag szavaink. Az aktivált szavak és az aktiváció szintje azonban jelentős egyéni eltéréseket mutathat.

Hálózatos jellegű kognitív struktúrákat feltételeznek modern képalkotó eljárások eredményeit figyelembe véve neurolingvisztikával foglalkozó kutatók is. Ezek a kutatások a hálózatokat az agyi területek közti kapcsolatok elemzésére alkalmazzák. Újabb kutatások esetében már frekvenciák által aktivált hálózatok létezését is feltételezik (vö. Rickheit et al., 2010).


Az Agykapocs-projekt


A szóasszociációs adatok gyűjtésének módszertana a 19. század végéig nyúlik vissza. A módszer alapjaiban nagyon egyszerű: egy hívószóra kell a vizsgálat résztvevőjének leírni vagy kimondani az első (vagy első néhány) szót, ami eszébe jut. Az eljárásnak számos változata létezik, korlátozhatjuk (vagy bővíthetjük) a megadható válaszok számát, a válaszidőt, vagy meghatározhatjuk a várt válaszok fajtáját (például a válasz adott szófaj, adott tárgykörhöz kapcsolódó szavak, részletesen Kovács, 2011).

Az Agykapocs-projekt ilyen asszociációs adatgyűjtéshez használja ki a 21. század kínálta lehetőségeket: a cél szóasszociációs adatok gyűjtése internethasználóktól; így az asszociációk megadásában bárki részt vehet. Az asszociációk megadása előtt a felhasználó regisztrál a rendszerben, ahol megad különböző statisztikai adatokat (kor, nem, anyanyelv, nyelvismeret, végzettség szintje, végzettség fajtája), amelyek segítségével később szűkíthetőek a szavakra adott asszociációk (például milyen választ adtak a gazdaság hívószóra a 25-35 év közötti, gazdasági egyetemet vagy főiskolát végzett férfiak). Asszociációk megadása során a felhasználó a megjelenő hívószavakra begépeli az első eszébe jutó szót – illetve ha nem jut eszébe semmi, a megfelelő gombot (Nincs ötletem/No idea) megnyomja –, majd továbblép a következő hívószóra. A program az egyes szavakra adott válaszok idejét is rögzíti egy MySQL adatbázisban. A programból a résztvevő bármikor kiléphet, illetve bármikor folytathatja további asszociációk megadását. A program sajátossága, hogy hívószó (és válaszszó) lehet szótári szó, toldalékolt szó, tulajdonnév, esetleg szókapcsolat is, vagyis a potenciális hívószavak részben eltérnek a hagyományosan szóasszociációs kutatásokban használt hívószavaktól.

Az alanyoknak az első 134 szó azonos, vagyis ugyanazon szavak ugyanazon sorrendben jelennek meg hívószóként. Ezen fix lista „megválaszolása” után a résztvevőnek a rendszerben mások által megadott válaszok jelennek meg hívószóként, így az adatbázis folyamatosan bővül: jelenleg több mint tizenötezer hívószóra tartalmaz asszociációkat. A bővülés során egy-egy szóról különböző írásmódok vagy helyesírási hibás alakok kerülhetnek az adatbázisba, elemzés előtt ezek tisztításra kerülnek. A rendszer részletes működését, a hívószavak listáját, illetve a válaszok feldolgozásának első, nyelvészeti jellegű eredményeit Kovács László (2011) fejti ki kötetében.

Az adatbázis több szempontból is unikumnak tekinthető:

• tudomásunk szerint ez az első olyan magyar nyelvű asszociációs adatbázis, amely tudományos módszerekkel internethasználóktól gyűjt asszociációs adatokat;

• már jelenlegi állapotában is az egyik legnagyobb asszociációs adatbázis a magyar nyelvre.

A kutatás egyik célja egy minél több adatot tartalmazó, többnyelvű szóasszociációs adatbázis kialakítása.


Irányított, irányítatlan és súlyozott hálózatok


A szóasszociációk szópárokból állnak. Ha ezeket a párokat egyesével vizsgáljuk, számos részletet felderíthetünk, de ha átfogó képet szeretnénk kapni a kognitív struktúrákról, a páronkénti vizsgálatnál többre van szükség. Ehhez nyújtanak segítséget a hálózatok. Az asszociációk során párosított szavakból hálózatot építünk: a csúcspontok a szavak, és azok a csúcspontok vannak éllel összekötve, amelyek között – az adatbázisban rögzített asszociációk alapján – kapcsolat van.

Az asszociációkból többféle hálózatot is készíthetünk. Legtermészetesebb irányított hálózatként kezelni az asszociációs párokat. Egy irányított hálózatban az élek nem vonalak, hanem nyilak, amelyek az egyik csúcsból (forráscsúcsból) egy másik csúcsba (célcsúcs) mutatnak. Mivel az asszociáció valamilyen szóból indul, és az asszociáció eredményeként egy másik szót kapunk, az irányított gráfban a hívószó lesz a forráscsúcs, a hívószóra adott válasz pedig a célcsúcs. (1. ábra)

Ha csupán a szavak együttes előfordulására vagyunk kíváncsiak, tehát arra, hogy milyen szavak fordulnak elő együtt mentális lexikonunkban, akkor az asszociációs párokból irányítatlan hálózatot célszerű készíteni. Az együtt előforduló szavak olyan szópárok, ahol mindegy, hogy melyik szót vesszük forráscsúcsnak és melyik a célcsúcs, ezekre a szavakra az asszociáció mind a két irányban működik. Ezek egy része lehet gyakran együtt előforduló szó (úgynevezett kollokáció), de nem szükségszerűen csak a kollokációk tagjai hívják egymást elő kölcsönösen. Adatbázisunk szerint szimmetrikus szópárok például a kék – ég, fű – fa vagy a ráz – zár, de nem szimmetrikus például a szín → bélszín vagy a vár → rám kapcsolat. Az előbbi kapcsolatok szerepelnek az irányítatlan hálózatban, az utóbbiak azonban nem.

Tovább finomíthatjuk a képet, ha a hálózat (irányított vagy irányítatlan) éleire feljegyezzük, hogy hányszor érkezett válaszként az adott asszociáció. Így súlyozott hálózatot kapunk, amivel el tudjuk különíteni az erős (gyakori) és a gyenge (ritkán előforduló) kapcsolatokat. Gyakori pl. a mobil → telefon, vagy a bank → pénz kapcsolat; ritka a mobil → olcsó, vagy a bank → asztal asszociáció.

Az Agykapocs adatbázisa egy sajátos súlyozási lehetőséget is biztosít. Mivel a weboldal feljegyzi, hogy pontosan mikor kínálta fel a hívószót, és azt is, hogy mikor kapta meg a választ, így mérhető a válaszidő. Ezt a válaszidőt felhasználva készíthetünk egy másik típusú súlyozott hálózatot: a gyorsan érkezett válaszokat erős kapcsolattal, a lassú válaszokat gyenge kapcsolattal vesszük fel a hálózatba.1


Kisvilág, skálafüggetlenség,
hálózati magok, hálózati csoportok


A valóságban megfigyelt hálózatok jelentős része úgynevezett kisvilág hálózat, ahol a nagy elemszám ellenére egy kiválasztott elemről elindulva egy másik elem az élek mentén haladva néhány lépésen belül elérhető.2 A szóasszociációs hálózatban is megmérhető, hogy egy csúcsból indulva milyen hosszú az az út, amely a legkevesebb lépésben visz egy másik csúcspontba. A 2a. ábra mutatja a legrövidebb útvonalak eloszlását. A nagyszámú csúcspont ellenére az átlagos távolság 6 lépés, a maximális távolság pedig 21. Tehát a vizsgált magyar szóasszociációs hálózat kisvilág-tulajdonságot mutat: néhány asszociációs lépés elegendő a legtávolabbi szavak összekapcsolásához.

 

 

A mindennapi nyelvhasználat alapján érezzük, hogy vannak fontos, gyakran használt szavaink, és vannak speciális, könnyebben nélkülözhető szavaink. Hálózatok nyelvén ezt úgy fogalmazhatjuk meg, hogy vannak központi szerepet játszó szavak, illetve vannak kevésbé centrális szavak.

Egy hálózatban a centralitásnak több mérőszáma is van. Használhatunk lokális mennyiségeket (ilyen például az alább kifejtendő fokszám), és használhatunk globális mennyiségeket (ilyen a szintén alább tárgyalt köztiség). Egy csúcshoz rendelhető mérőszám lokális mennyiség, ha a kiszámításához nincs szükség a csúcstól távoli csúcspontok vagy élek figyelembevételére. Globális mérőszám meghatározásában azonban a csúcstól távoli, több lépésben elérhető csúcsok is szerepet játszanak.

Egy hálózati csúcspont fokszáma megmondja, hogy hány másik csúcspont kapcsolódik közvetlen éllel hozzá. Irányított hálózat esetén megkülönböztetünk ki- és befokszámot is, aszerint, hogy a csúcspontból kifelé mutató, vagy a csúcspontba befelé mutató élek szerint kapcsolódó szomszédokat számoljuk össze. Súlyozott hálózatok esetén a fokszám mellett a csúcserősségnek nevezett mennyiséget használjuk, ami a csúcshoz kapcsolódó élek súlyainak összege.3 A súlyozatlan, irányított asszociációs hálózat esetén a befokszám megadja, hogy hány különböző hívószóra érkezett válaszként az adott szó. Ugyanennek a hálózatnak a súlyozott változatában a befelé mutató élekből számolt erősség azoknak az asszociációknak a számát adja, ahol az adott szó válaszként szerepelt. Ha a fokszám (vagy az erősség) nagy, akkor a csúcspont központi szerepű a lokális környezetében (ilyen szavakra néhány példát az 1. táblázatban sorolunk fel).

A fokszám-centralitással szemben a köztiség globális mennyiség. Megmutatja, hogy a hálózatban a legrövidebb utak hányad része megy át az adott csúcsponton.4 Azoknak a csúcspontoknak, amelyek például két nagy, elkülönülő hálózati részt kapcsolnak össze, nagy a köztiség-értékük. A sok szomszédhoz kapcsolódó csúcsok is általában nagy köztiségűek.

Az asszociációs hálózat szavainak befokszám-eloszlását a 2B ábra mutatja. Az eloszlásfüggvény fontos jellemzője, hogy nincsen egy karakterisztikus érték, amelynél kisebb vagy amelynél nagyobb értékek tipikusan ne fordulnának elő. Az igen gyakori kis fokszámú csúcsok mellett vannak a hálózatban igen nagy fokszámú csúcsok is. Ez a tendencia még hangsúlyosabb a köztiség eloszlásánál. Itt a köztiség-értékek több dekádnyi tartományon is változnak, ezért vizsgálhatjuk az eloszlásfüggvény csökkenési tendenciáját számszerűen. Két tartományt különböztethetünk meg, és mind a kettőben (de különösen az első szakaszon) a lecsengés hatványfüggvényt követ. Az ilyen, a Gauss-eloszláshoz képest lassan lecsengő eloszlásfüggvénnyel jellemezhető rendszereket, ahol az extrém értékek is viszonylag nagy valószínűséggel fordulnak elő, skálafüggetlen hálózatoknak nevezzük. A fokszám, de különösen a köztiség-eloszlások alapján a magyar szóasszociációk hálózata skálafüggetlen hálózat.

A hálózatos reprezentáció lehetőséget ad többszörös összefüggések áttekintésére, ahol a szavakat nemcsak páronként vizsgáljuk, hanem egyszerre több elem közvetlen vagy közvetett viszonyában is elemezzük. Ha egy hálózati csúcspont néhány lépéses környezetén belüli csúcspontok között viszonylag sok él van, akkor a hálózatnak ezt a tartományát sűrűnek mondjuk. A sűrű tartományok egymással szoros kapcsolatban lévő elemeket tartalmaznak. Ezek köré a sűrű magok köré héjszerűen rétegződnek a lazábban kötődő elemek.5 A magyar szóasszociációs hálózatban is azonosíthatóak hálózati magok. A legsűrűbb magban legalább tizenhét kapcsolattal kötődnek a csúcsok a maghoz, amely 156 csúcspontból áll.

A hálózatok magjai a csúcsok egyéb tulajdonságairól is érdekes részleteket árulhatnak el. Esetünkben például a hálózati éleket a válaszadók neme szerint szétválasztva külön vizsgálhatók a férfiak és a nők asszociációinak magjai. Tapasztalatunk szerint a férfiak válaszaiból készített hálózat legnagyobb magja főként olyan szavakból áll, amelyeket mindkét nem használt (a csak férfiak által használt szavak aránya 10% alatti), míg a női asszociációk legnagyobb magja jelentős részben tartalmaz csak nők által használt szavakat (30% feletti a csak nők által adott szavak aránya).

A hálózatban szorosan összetartozó csúcspontokat, csúcspontok úgynevezett csoportjait többféle szempont szerint határozhatjuk meg. A csoportkeresési eljárásoknak bőséges irodalmuk van, áttekintést például Santo Fortunato (2010) ad.

Az egyik népszerű – hazai kutatóműhelyből kikerülő – csoportkereső eljárás a klikk perkolációs algoritmus. Ez az eljárás a hálózat legsűrűbb elemeiből, klikkekből építi fel a csoportokat. Egy klikken belül minden csúcspont minden többi csúcsponttal össze van kötve, a csoportosulások ezeknek a klikkeknek összefüggő láncolatai. Az így nyert csoportok szorosan összefüggő szóhalmazokat alkotnak. A 3. ábrán mutatott példa az asszociációs hálózat legsűrűbb csoportjait mutatja. Látható, hogy az egyes csoportok különféle témakörökhöz tartozó szavakat tartalmaznak, de vannak olyan általános szavak, amelyek több témakörhöz egyformán kötődnek, ezért több csoportnak is tagjai. A csoportok átfedéseiben tehát olyan szavak szerepelnek, amelyek több témakörrel is kapcsolatban állnak, így azokat bármelyik kapcsolódó témakör előhívhatja.

A fentiekben említettük, hogy a hálózat éleit az asszociációs adatfelvételnek köszönhetően a válaszadási idők szerint is súlyozhatjuk. Azt tapasztaltuk, hogy a szorosan összefüggő szóhalmazokban a gyors válaszok tipikusan olyan szavakat adtak, amelyek a hálózati csoportok átfedéseiben jelennek meg. A 3. ábrán azokat a hálózati éleket jelöltük vastag vonallal, amelyekhez rövid válaszidejű asszociációk tartoznak. A vékonyabb élek a lassabb válaszokat jelölik.


Összefoglalás


Tanulmányunkban egy magyar szóasszociációs adatbázis hálózatos elemzésének néhány lehetőségét mutattuk be. A hálózatelméleti vizsgálati módszerek kimutatták, hogy az asszociációkból létrehozott adatbázis hálózata kisvilág-karakterű és skálafüggetlen jellemzőket mutat. Különbséget tapasztaltunk továbbá nők és férfiak asszociációs hálózatainak vizsgálata során, valamint azt tapasztaltuk, hogy a szorosan összekapcsolt csoportok gyors válaszai a csoportok közös elemei.
 



A szerzők köszönetüket fejezik ki Vicsek Tamásnak és Palla Gergelynek tanácsaikért, a TÁMOP-4.2.1/B-09/1/KMR-2010-0003 pályázatnak pedig a pénzügyi támogatásért.
 



Kulcsszavak: kognitív hálózat, kognitív struktúra, hálózatkutatás, asszociációk, mentális lexikon, emberi viselkedés dinamikája, hálózati csoportok
 


 

IRODALOM

Barabási Albert-László (2003): Behálózva. Magyar Könyvklub, Budapest

Buchanan, Mark (2003): Nexus, avagy kicsi a világ: A hálózatok úttörő tudománya. Typotex, Budapest

Csermely Péter (2005): A rejtett hálózatok ereje. Vince, Budapest

Fortunato, Santo (2010): Community Detection in Graphs. Physics Reports. 486, 75–174. • WEBCÍM >

Kovács László (2011): Fogalmi rendszerek és lexikai hálózatok a mentális lexikonban. Tinta, Budapest

Levelt, Willem J. M. – Roelofs, A. – Meyer, A. S. (1999): A Theory of Lexical Access in Speech Production. Behavioral and Brain Sciences. 22, 1–75. • WEBCÍM >

Palla Gergely – Derényi I. – Farkas I. – Vicsek T. (2005): Uncovering the Overlapping Community Structure of Complex Networks in Nature and Society. Nature. 435, 814. • WEBCÍM >

Rickheit, Gert – Weiss, S. – Eikmeyer, H.-J. (2010): Kognitive Linguistik. A. Francke, Tübingen–Basel

Rogers, Timothy T. – McClelland, James L. (2004): Semantic Cognition. A Parallel Distributed Processing Approach. MIT Press, Cambridge • WEBCÍM >

Vicsek Tamás – Szabados László (szerk.) (2006): Hálózatok. Magyar Tudomány 2006/11

Agykapocs: WEBCÍM >

Cfinder: WEBCÍM >

 


 

LÁBJEGYZETEK

1 A válaszidők egy él esetén is változnak a válaszadó személyétől függően, ezért a kapcsolat erősségét a válaszidők eloszlásfüggvénye alapján adjuk meg. <

2 Pontosan fogalmazva: egyetlen összefüggő komponensen belül a lépések száma a komponens elemszámával legfeljebb logaritmikusan növekszik. <

3 Irányított hálózat esetén külön számoljuk a kifelé és a befelé mutató élek súlyainak összegét. <

4 Matematikailag minden egyes csúcspárra kiszámítjuk a csúcsponton átmenő legrövidebb utak és a csúcspárt összekötő összes lehetséges legrövidebb útvonal számának arányát. Ezeket az arányokat összegezzük minden csúcspár esetén. <

5 A hálózati mag (egész pontosan k-mag) definíciója szerint azok a csúcspontok tartoznak ugyanahhoz a maghoz, amelyek legalább k számú kapcsolattal kötődnek a magban lévő más csúcspontokhoz. <
 

 

 


 


 

 

1. ábra • Asszociációs párokból felépített irányított és irányítatlan hálózat egy-egy részlete <
 


 


2. ábra • A – A legrövidebb útvonalak hosszának eloszlása az irányított szóasszociációs hálózatban. A leghosszabb út 21 lépésből áll; B – A befokszámok eloszlása; C – Csúcserősségek eloszlása a csúcsba mutató súlyozott élek alapján, a súlyokat az előfordulás szerint számítottuk. <
 


 

befokszám csúcserősség köztiség
pénz pénz pénz
ember
autó sok öröm
rossz kevés szép
ember pihenés sok


1. táblázat • Nagy centralitású szavak befokszám szerint; befelé mutató élekből

számított csúcserősség szerint; köztiség szerint. <
 




3. ábra • Az irányított asszociációs hálózat legsűrűbb csoportjai két különböző nézetben. A bal oldali ábra a csoportszerkezetet mutatja, a jobb oldali ábra a válaszidők szerinti súlyozást. Mindkét nézetben azokat a szavakat, amelyek csak egyetlen csoportba tartoznak, üres alakzatok (minden csoportot más-más alakzat), a csoportok közös tagjait pedig teli karikák jelzik. A bal oldali ábrán szaggatott vonal segít elkülöníteni a csoportokat. A jobb oldali ábrán a rövid válaszidejű asszociációkat vastag vonallal jelöltük. A rövid válaszidejű élek tipikusan csoportok átfedéseiben lévő csúcspontokhoz vezetnek. <