Magyar Tudomány • 2009 05 • Forgó Ferenc

Egyetlen tudományág esetében sem könnyű röviden, világosan megfogalmazni, hogy mivel is foglalkozik. A művelőik között sincs általános egyetértés; még olyan egzakt tudományok, mint a fizika és a kémia esetében is elmosódnak a határok. Nincs ez másképpen a játékelmélet esetében sem. Mielőtt megpróbálnánk definíciót adni, nézzünk néhány olyan szituációt, amellyel a játékelmélet foglalkozik.

Mindenki ismeri a sakkjátékot és elég sokan az ulti kártyajátékot. Közös vonás bennük, hogy minden játékos számára lehetőségek állnak rendelkezésre a játék egyes fázisaiban, és ezek közül úgy kell választani, hogy senki nem ismeri a többiek terveit, de mindenki számára világosak a szabályok és a játékosok motivációi. A sakk esetében elvben semmi sem függ a véletlentől, míg az ultiban, mint csaknem minden kártyajátékban, a véletlen is szerepet játszik azáltal, hogy az induló lapok kiosztása keverés után történik meg. A sakkban két játékos játszik, míg az ulti egyes fázisaiban két játékos együttműködése is szükséges. A sakkról még érdemes elmondani, hogy nagy szerepe volt a játékelmélet elnevezés elterjedésében és általános elfogadottságában.

Sokat tanulmányozott a következő, végletekig leegyszerűsített helyzet, amit fogolydilemmának szokás nevezni. Két gyanúsítottat szeretne az ügyész rávenni, hogy valljanak az állítólag közösen elkövetett komoly bűntényben. Elkülönítve tartják őket, és így nem tudnak arról, hogyan vall a másik. Ha egyikük sem vallja be a súlyos bűntényt, akkor bizonyítottság hiányában mindegyik kap két év börtönt apró vétségekért (például engedély nélküli lőfegyvertartásért). Ha az egyik vall, de a másik nem, akkor, aki vallott, vádalku keretében nem kap büntetést, míg a másik tíz év börtönt kap. Ha mindketten vallanak, akkor mindegyik kap öt évet, amibe enyhítő körülményként beszámítják a hatóságokkal való együttműködést.

Talán még egyszerűbb az alábbi primitív játék, amit érmepárosításnak is szokás nevezni. Albert és Benedek játszanak, és mindegyikük egy százforintost tart a kezében, amelynek vagy a fej, vagy az írás oldalát fordítják felfelé, úgy, hogy a másik ne lássa. Ha a két pénz azonos fele van felfelé (mindkettő írás vagy mindkettő fej), akkor Albert elnyeri Benedek 100 forintosát, ha különbözők (egyik fej, másik írás), akkor Benedek nyeri el Albert 100 forintosát.

Ez egy zéró összegű játék, mert a játékosok kifizetéseinek összege 0, amit az egyik nyer, azt veszíti a másik, ellentétben a fogolydilemmával, amely nyilván nem zéró összegű.

A vásárcsarnokban az almaárusoknak egy nappal korábban kell feladniuk a rendelést a nagykereskedőknél. Az almát homogén árunak tételezzük fel. Egy adott nap az alma ára csak attól függ, hogy mekkora a piacon az összes alma kínálata, ami az előző napi rendelések összege. Rendelésével minden kereskedő akár egyedül is befolyásolni tudja az alma árát. Az egyes kereskedőknek eltérő költségeik vannak, és ez függ a rendelt alma mennyiségétől (a költségeket növeli például, hogy nagyobb mennyiség esetén több eladó, nagyobb terület kell). A kereskedők abban érdekeltek, hogy a nap végén az almaeladásból származó árbevétel és a költségek különbsége (röviden haszon) minél nagyobb legyen. Megjegyezzük, hogy ha az egyes kereskedők súlya olyan kicsi, hogy a volumenre vonatkozó egyedi döntéseikkel (a rendelés nagyságával) nem tudnak hatni az alma árára, vagyis „árelfogadók”, nem pedig „ármeghatározók”, akkor nem játékelméleti problémával van dolgunk, hanem a klasszikus versenyzői piaccal.

Többen licitálnak egy értékre (festmény, olajmező, sugárzási jog). Mindenki egy zárt borítékban nyújtja be az ajánlatát, az a győztes, aki a legtöbbet ígérte, és az ígért összeget kell érte kifizetnie. Mindenki tudja, hogy ő maga mennyire értékeli a tárgyat, de nem ismeri pontosan a többiek értékelését, erről csak valamilyen vélekedése van. Minden résztvevő szeretné megszerezni az értékes tárgyat úgy, hogy lehetőleg minél nagyobb legyen a saját értékelése és a kifizetett összeg közötti különbség. Senki sem licitál többet a saját értékelésénél.

Egy tó partján három gyár van, amelyek valamilyen mértékben szennyezik a tó vízét. Legolcsóbb az lenne, ha közösen építenének egy víztisztítót, de megvan a lehetőség arra, hogy egyenként vagy ketten összefogva építsenek. Elhatározzák, hogy közösen építenek. Hogyan osszák fel egymás között a költséget?

Ezekből a példákból azonnal látszik, hogy mindegyikük egy olyan döntési helyzet, amelyben több szereplő (játékos) van a maguk többé-kevésbé eltérő érdekeivel, és az, hogy a játékosok cselekvéseinek eredménye nemcsak egy játékos döntésétől függ, hanem mindegyikétől. Az összes példánkban jelen van a konfliktus és/vagy a kooperáció lehetősége. Nem mindegy azonban, hogy milyen eszközökkel vizsgáljuk az adott konfliktushelyzetet. Ha egy jogi problémát, például egy válópert, csak a jog vagy a pszichológia hagyományos módszereivel elemzünk, akkor még kívül maradunk a játékelmélet területén. A hiányzó elem a matematikai modell. A matematikai modell egyrészt szolgáltatja a matematika tömör, világos fogalomrendszerét és nyelvezetét, másrészt olyan elemzési eszközöket nyújt, amelyekre a csupán szöveges kifejtés nem képes.

Most már adhatunk a következőkben bátran használható definíciót: A játékelmélet matematikai modellek olyan rendszere, amelyet többszereplős konfliktushelyzetek elemzésére használunk.

Az elemzés szó azonban elég tág fogalmat takar, így itt is szűkíteni fogunk. A játékelmélet normatív tudomány. Nem azt vizsgálja (például statisztikai eszközökkel), hogy a játékosok mit tesznek a valóságban egy adott helyzetben, hanem azt, hogy mit kell tenniük, ha a helyzetre és a viselkedésükre bizonyos feltételek teljesülnek. Ez egyébként a döntéselméletben is így van, ahol általában egyetlen döntéshozóval (játékossal) foglalkozunk. Ha valakinek arról kell döntenie, hogy minden egyébben azonos két bank közül melyikbe tegye a pénzét: abba, ahol a kamat 8%, vagy ahol 9%, és a döntéshozó előnyben részesíti a több pénzt a kevesebbel szemben, akkor a döntéselmélet válasza egyértelmű: a 9%-os kamatot adó bankot kell választani. Ezen mit sem változtat, hogy a valóságban esetleg nem mindenki dönt így.

Általában egy játékost racionálisnak nevezünk, ha a saját hasznosságát maximalizálja. Teljesen informálisan: a játékos a saját lehetőségei közül, a többi játékos választását adottnak véve azt választja, ami neki a legjobb, és ezt a legjobb cselekvést meg is tudja határozni, akármilyen bonyolult is ez a feladat. Ezt úgy is szokás mondani, hogy a játékos racionalitását semmi sem korlátozza. Ez a feltevés is azt mutatja, hogy a modellekben és így a játékelméletben is egy ideális világban mozgunk. Ennek az ideális világnak egyik fontos eleme a köztudás feltételezése. Ismét csak informálisan: ha minden játékos tud valamit (például azt, hogy minden játékos racionális döntéshozó), akkor azt is tudja, hogy a többiek tudják róla, hogy ő tudja ezt a valamit, sőt azt is tudja, hogy a többiek tudják róla azt, hogy ő a többiekről tudja, hogy tudják és így tovább a végtelenségig. Ennek a pontos megfogalmazása nemcsak e bevezető írás, de a legtöbb játékelméleti könyv keretein is túlmegy. Így a köztudást ebben a köznapi formájában értelmezzük. A racionalitás köztudása a játékelméletben általános feltételezés.

Most, hogy már tudjuk, hogy mivel és milyen eszközökkel foglalkozik a játékelmélet, nézzük, hogy milyen kérdésekre keres választ. Egyetlen döntéshozó esetében, legalábbis elvi szinten egyszerű a kérdés: a lehetséges döntések közül melyiket (melyeket) válassza a döntéshozó, hogy a hasznossága maximális legyen? Több szereplő esetében azonban a helyzet bonyolultabb. Azonnal adódik két különböző megközelítés. Az egyik, amikor azonosítjuk magunkat egy játékossal, és arra vagyunk kíváncsiak, hogy figyelembe véve a többi játékos lehetőségeit és motivációját, valamint a játékosok viselkedésére tett feltételeket, mit kell ennek a játékosnak tennie? Ezt úgy is lehet értelmezni, hogy a játékot mintegy „alulnézetből” szemléljük. A másik megközelítéssel egy külső szemlélővel azonosítjuk magunkat, aki a saját érdekeiket érvényesíteni akaró játékosok látszólag koordinálatlan cselekvéseiben valami rendet szeretne felfedezni, és magáról az egész játékról akar valami lényegeset megtudni. Ilyenkor a játékot felülről, „madártávlatból” szemléljük, és általában valami stabil, egyensúlyi állapot elérhetőségét, létezését és tulajdonságait vizsgáljuk. Bizonyos esetekben a két megközelítés ugyanoda vezet, de általában ez nem mondható el.

A következőkben megpróbáljuk a játékokat különböző szempontok alapján kategorizálni. Az egyik nagyon lényeges felosztás megkülönböztet nem kooperatív és kooperatív játékokat. Az elnevezések azt sugallják, hogy az első esetben a játékosok egymástól függetlenül hozzák meg döntéseiket, míg a másodikban összehangolják cselekvéseiket a kedvezőbb kimenetel elérése érdekében. Ennél azonban egy kicsit pontosabbak leszünk. A nem kooperatív játékok esetében egyedül azt zárjuk ki, hogy a játékosok csoportjai (koalíciók) elkötelező szerződéseket kössenek, amelyek előírják, hogy a koalíció érdekében melyik játékosnak mit kell tennie. Megengedett azonban, hogy „hallgatólagosan” működjenek együtt, egyéni érdekek által vezérelve. Tegyük fel, hogy a vásárcsarnokban két almaárus rendszeresen 200 Ft-ért kínálja az alma kilóját, és ezáltal mindegyik tisztességes haszonhoz jut. Ha valamelyik árat csökkentene, növelni tudná a hasznát, de ezt nem teszi, mert attól fél, hogy a másik is ezt teszi, és akkor mindketten rosszabbul járnak. Ennek a helyzetnek a tanulmányozása a nem kooperatív játékok körébe tartozik. Ha viszont a két árus árkartellt hoz létre, és írásos szerződésben kötelezik magukat, hogy az alma kilóját 200 Ft-ért adják, akkor olyan helyzettel van dolgunk, amelynek elemzése már a kooperatív játékok területére esik. A továbbiakban, hacsak ezt külön nem említjük, a nem kooperatív játékokkal foglalkozunk.

A nem kooperatív játékok körében a játék matematikai megfogalmazásának formája szerint megkülönböztetünk normál (stratégiai) formát és extenzív formát. Vegyük először a normál formát. Tegyük fel, hogy a G nem kooperatív játékot n játékos játssza (n-személyes játék). Minden játékos esetében megadjuk a játékosok lehetséges cselekvéseit (ezeket szokás stratégiáknak vagy akár akcióknak is nevezni). Ha az n játékos egy-egy cselekvéséből (stratégiájából) összeállítunk egy cselekvésegyüttest, akkor azt cselekvésprofilnak (stratégiaprofilnak) nevezzük. Minden cselekvésprofilt, amely meghatározza a játék egy kimenetelét, minden játékos szempontjából egy számmal értékelünk, amely a „hasznosságot”, vagy játékelméleti terminológiával a „kifizetést” jelenti. Minden játékosnak van tehát egy hasznosságfüggvénye (kifizetőfüggvénye). A játékosok cselekvéshalmazait és a kifizetőfüggvények együttesét normál formában adott játéknak nevezzük. A játék lefolyását úgy kell elképzelnünk, mintha minden játékos egy külön szobában ülne, előtte a lehetséges cselekvései, és belőlük kiválaszt egyet. Egy játékvezető aztán összeszedi a kiválasztott cselekvéseket, összeállítja belőlük a cselekvésprofilt, és megállapítja a kifizetőfüggvény segítségével a kifizetéseket, amelyeket „átad” a játékosoknak. Persze a hasznosságok átadását képletesen kell érteni.
Nézzük meg, hogyan lehet a 2. példában szereplő fogolydilemmát normál formában megfogalmazni. Itt két játékosunk van (a foglyok), nevezzük őket Andrásnak (A) és Bélának (B). Mindkettő számára két cselekvési lehetőség van: Vall (V) vagy Nem vall (N). Kifizetésnek tekintsük a börtönben eltöltendő évek számának -1-szeresét. Így megfelelünk annak az elvárásnak, hogy a játékosok hasznosságmaximalizálók. Ezt a játékot az alábbi két táblázattal tudjuk megadni normál formában:

András kifizetései:

	BV	BN
AV	-5	0
AN	-10	0

AV: A vall, AN: A nem vall,
BV: B vall, BN: B nem vall

Béla kifizetései:

	BV	BN
AV	-5	-10
AN	0	-2

A cselekvésprofilok: (AV, BV), (AV, BN), (AN, BV), (AN, BN). A táblázat számai maguktól értetődőek.

Persze nem mindig ilyen egyszerű a normál forma felírása, és a lehetséges cselekvések száma sem mindig véges. Ez a helyzet a 3. és 4. példában.

A normál forma meghatározása után következhet az elemzés. Képzeljük magunkat András helyébe. Bármit csinál is Béla, András mindenképpen akkor jár jobban, ha vall, hiszen a -5 és 0 kifizetések jobbak, mint a -10 és -2. Ezt úgy szoktuk mondani, hogy az AV cselekvés szigorúan dominálja az AN-et. Béla, minthogy tudja, hogy András racionális (jobban szereti a kevés büntetést, mint a többet) azzal számol, hogy András vallani fog, akkor pedig neki is vallani kell, mert ő is racionális és jobban szereti a két év börtönt, mint az öt évet. Eljutottunk odáig, hogy a szigorúan dominált (irracionális) cselekvések fokozatos (itt két lépésben) való kiküszöbölésével marad az (AV, BV) cselekvéspáros, amit a játék megoldásának tekintünk.

A helyzet azonban általában nem ilyen egyszerű, mivel a legtöbb esetben nem tudjuk egy kivételével az összes cselekvéspárt kiküszöbölni pusztán a racionalitás köztudására apellálva. Nézzük ismét a fogolydilemmát, és tegyük fel, hogy az ügyész felkeresi külön-külön mindkét foglyot a cellájában, és azt tanácsolja, hogy valljanak. Azt nem mondja meg nekik, hogy a másik mit döntött, csak azt, hogy mindenkinek azt tanácsolta, hogy valljon. Ekkor, mint azt a számokból láthatjuk, egyik fogolynak sem érdeke, hogy mást csináljon, mint amit tanácsoltak neki, feltéve, hogy a másik megfogadta az ügyész tanácsát. Ezt az állapotot, az (AV, BV) cselekvésprofilt, joggal lehet egyensúlyi helyzetnek tekinteni, hiszen senkinek sem érdeke egyedül eltérni ettől, ha a másik nem tér el. Ezt az állapotot nevezzük egyensúlypontnak, vagy manapság már felfedezőjéről, John Nash közgazdasági Nobel-díjas amerikai matematikusról, Nash-egyensúlypontnak. Egyszerű a definíció kiterjesztése többszemélyes játékokra: egy cselekvésprofilt Nash-egyensúlypontnak nevezünk, ha egyetlen játékosnak sem érdeke a saját cselekvését megváltoztatni, feltéve, hogy a többiek nem változtatnak. Más megfogalmazásban: Nash-egyensúlypontban bármely játékos egyensúlyi cselekvése a legjobb felelet (maximálja a saját hasznosságát) a többi játékos egyensúlyi cselekvésprofiljára. Ha egy Nash-egyensúlypontban a játékosok cselekvése a legjobb felelet a többiek bármely (nemcsak az egyensúlyi) cselekvésprofiljára, akkor domináns Nash-egyensúlypontról beszélünk. A fogolydilemmában az (AV, BV) cselekvésprofil domináns Nash-egyensúlypont.

Az egyensúly magát a helyzetet nem minősíti a játékosok közössége szempontjából, vannak nagyon rossz egyensúlyi állapotok és jó (akár minden játékos számára jobb) nem egyensúlyi állapotok. A fogolydilemmában az (AN, BN) nem egyensúlyi kimenetel mindkét játékos számára jobb, mint az egyensúlyi (AV, BV). Az előnytelen Nash-egyensúlyra számos példát mutat be és elemez Hankiss Elemér Társadalmi csapdák című, kitűnő könyvében.

Kis túlzással azt lehet mondani, hogy a nem kooperatív játékok elmélete a Nash-egyensúly körül forog. Ilyen kérdéseket vizsgálunk például:

• Milyen feltételek mellett létezik Nash-egyensúlypont? A fogolydilemmának van Nash-egyensúlypontja, míg az érmepárosításnak nincs, amit a négy kimenetel megvizsgálásával egyszerűen ellenőrizhetünk.

• Milyen feltételek mellett van csak egyetlen Nash-egyensúlypont?

• Ha több (esetleg igen sok) Nash-egyensúlypont van, milyen kritériumok alapján lehet ezekből kiszűrni azokat, amelyek intuícióellenesek, más szóval élesen ellentétesek tapasztalatainkkal és sokszor a józan paraszti ésszel?

• Hogyan lehet eljutni egy nem egyensúlyi állapotból egyensúlyi állapotba?

• Milyen eljárásokkal, algoritmusokkal lehet kiszámolni a Nash-egyensúlypontot az alapadatokból (a normál formából)?

• Milyen tulajdonságai vannak a Nash-egyensúlypontnak egyes speciális játékosztályokban?

• Hogyan lehet a Nash-egyensúlypontot úgy általánosítani, hogy figyelembe lehessen venni az egyes játékosok különböző informáltságát?

• Hogyan lehet a Nash-egyensúlypontot úgy általánosítani, hogy olyan kimenetelek is megjelenhessenek egyensúlyként, a játékosok önérdeke által vezérelve, amelyek egyértelműen kedvezőbbek bármely Nash-egyensúlypontnál?

• Milyen speciális tulajdonságai vannak a Nash-egyensúlypontnak az egyes alkalmazási területeken (közgazdaság, biológia, informatika, sport stb.)

• Hogyan lehet egy „kívánatos” kimenetelhez egy olyan játékot szerkeszteni, amelynek egyetlen (domináns) Nash-egyensúlypontja éppen ezt a kimenetelt realizálja?

Ezeknek a kérdéseknek némelyikére az ebben a válogatásban található tanulmányokban feleletet is kapunk.

Most egy ideig tételezzük fel, hogy minden játékosnak csak véges számú cselekvési lehetősége van. Mint azt korábban megjegyeztük, ekkor nincs semmi garancia arra, hogy mindig létezzék Nash-egyensúlypont. Próbáljuk azonban keverni a cselekvéseinket, ami azt jelenti, hogy a játékosok nem a cselekvési lehetőségeik közül választanak, hanem azt határozzák el, hogy milyen valószínűséggel választják egyes cselekvéseiket. Az érmepárosításban dönthet például az egyik játékos úgy, hogy 1/3 valószínűséggel fejet, 2/3 valószínűséggel pedig írást fordít felfelé. Mikor tehát választani kell írás és fej között, akkor beletesz egy kalapba három cédulát, egyre fejet, kettőre írást ír, és véletlenszerűen választ. Tőle függetlenül megteszi ugyanezt a másik játékos is. Mondjuk, úgy dönt, hogy 1/4 valószínűséggel fejet és 3/4 valószínűséggel írást fordít felfelé, és hasonló módszerrel sorsolja ki az aktuális választását. Ha a játékot nagyon sokszor játsszák le, akkor a játékosok már nem abban érdekeltek, hogy egy lejátszás során hogy járnak, hanem abban, hogy hosszú idő átlagában mennyi lesz a kifizetésük, amit úgy is szoktunk mondani, hogy a kifizetésük várható értékét igyekeznek maximalizálni. Ily módon egy új játékot definiáltunk, amelyben a játékosok lehetséges cselekvései (stratégiái) az eredeti véges számú cselekvéseken értelmezett összes valószínűség-eloszlás, kifizetései pedig a várható kifizetésük. Ezt a játékot kevert bővítésnek nevezzük, és ugyanúgy értelmezzük benne a Nash-egyensúlypontot: olyan valószínűségeloszlás-profil, amelyet egyoldalúan egyik játékosnak sem érdeke megváltoztatni, mert a várható kifizetése nem növekszik, ha ezt megteszi. Igen figyelemre méltó, hogy így a játékok talán legfontosabb osztályára van egzisztenciatétel, Nash tétele 1950-ből: Minden véges játék kevert bővítésének van Nash-egyensúlypontja.

Nash tételének van magyar vonatkozású előzménye. Neumann János 1928-ban bebizonyította, hogy minden véges, kétszemélyes, zéróösszegű játék (például az érmepárosítás) kevert bővítésének van egyensúlypontja. Ebben a speciális esetben az egyensúly másképpen is létrejöhet. Vegyük az érmepárosítás játék kevert bővítését. Itt Albertnek az a feladata, hogy válasszon egy x számot 0 és 1 között, ami azt jelöli, hogy mekkora valószínűséggel választ fejet. Nyilván 1-x az írás választásának valószínűsége. Ugyanezt Benedeknél jelöljük y-nal. A várható kifizetést Albert számára jelöljük E(x,y)-nal. Nyilván Benedek kifizetése -E(x,y). Albert mint racionális játékos a következőképpen gondolkozik: ha az x valószínűséget választom, akkor méltán számíthatok arra, mivel Benedek az E(x,y)-t minél kisebbnek (ami ugyanaz, mint -E(x,y)-t minél nagyobbnak) szeretné, ezért olyan y-t fog választani, amely minimalizálja E(x,y)-t. Az x megválasztása csak rajtam múlik, így még a legrosszabb esetben is biztosítani tudok magamnak max min E(x,y) várható kifizetést, ahol a maximalizálás x, a minimalizálás y szerint történik. Fontos látni, hogy előbb y szerint minimalizálunk, majd x szerint maximalizálunk. Benedek ugyanígy gondolkodik, és kiszámítja a saját biztonsági szintjét min max E(x,y)-t, ahol először x szerint maximalizálunk, majd y szerint minimalizálunk. Ez az a várható kifizetés, amennyinél többet Benedek nem veszíthet, bármit csináljon is Albert. Neumann János tétele szerint a két biztonsági szint egyenlő egymással, és Albert biztonsági szintjét maximalizáló x stratégiája és Benedek saját biztonsági szintjét minimalizáló stratégiája Nash-egyensúlypontot alkot. Ebben az esetben van tehát garancia arra, hogy a játékosok saját érdekei által vezérelt optimalizáló stratégiák és az egész játék egységes szemléletét megtestesítő egyensúly egybeessenek.

Érdemes még egy momentumot megemlíteni. A Nash-egyensúly definíciójában minden játékos csak a saját kifizetését hasonlítja össze egyensúlyban, illetve az attól való egyoldalú eltérés esetén, tehát nincs szükség arra, hogy más játékosok hasznosságával mérje össze. Egy zérusösszegű játékban azonban „elrejtve” jelen van a hasznosságok összehasonlíthatósága. Amikor azt tesszük fel, hogy amit Albert nyer, azt veszíti Benedek, akkor összehasonlítjuk a hasznosságokat. Ha például pénzről van szó, akkor egy adott összeget mindketten ugyanúgy értékelnek, függetlenül saját anyagi helyzetüktől. A kétszemélyes, zéróösszegű játékok „kellemes” tulajdonságai többek között a hasznosságok összehasonlíthatóságára vezethetők vissza.

A normál formában adott játékoknál feltettük, hogy a játékosok egyidejűleg, egymástól függetlenül hozzák meg döntéseiket. Sokszor kell elemeznünk azonban olyan helyzeteket, amelyekben lényeges az egyes döntések időbelisége és egymásra következése. Vegyük például a jól ismert sakkjátékot. A szabályok szerint az első lépést világos teszi meg (húsz lehetősége van), majd sötét következik (ugyancsak húsz lehetőséggel), és így következnek felváltva a lépések, a sakkjáték szabályainak megfelelő lehetőségekkel. Szintén a szabályok biztosítják, hogy véges számú lépés után véget ér egy játszma, és vagy valamelyik játékos nyer, vagy döntetlen lesz.

Nagyon hasznos megjelenítési formája egy ilyen játéknak, ha a játékot a gráfelméletből ismert speciális gráffal, egy gyökérrel rendelkező véges fával ábrázoljuk. Gondoljunk egy valódi fára, amelynek a tövéből (ez a gyökér) ágak indulnak el felfelé, majd bizonyos pontokból (csomópontok) újabb ágak indulnak ki, és így tovább, mindaddig, amíg elérkezünk egy olyan ághoz, amelyből már nem indul ki másik ág. Ezeknek az ágaknak a végpontjait leveleknek nevezzük. A levelekben (a játék végén) megtörténnek a kifizetések. Azokat a pontokat, amelyek nem levelek, döntési pontoknak hívjuk. Ennek a fának a felépítésével a játékot extenzív formában adjuk meg.

Bővítsük a játékosok halmazát egy speciális játékossal (nevezzük „Véletlennek” és jelöljük V-vel), míg hívjuk a többieket valódi játékosoknak. Rendeljünk hozzá minden döntési ponthoz egy játékost, aki abban a pontban „lép”, ami azt jelenti, hogy ha ez a játékos V, akkor egy adott valószínűségeloszlás szerint véletlenszerűen választ egy továbbhaladási irányt, ha pedig valódi játékos, akkor tudatosan teszi ezt. Ha a V több döntési pontban is lép, akkor a sorsolásokról ezekben a pontokban feltesszük, hogy egymástól függetlenek. Mivel a fa véges, és minden lépéssel haladunk egy levél felé, véges számú lépésben elérünk egy levelet, ahol megtörténnek a kifizetések, minden valódi játékoshoz hozzárendelünk egy valós számot, ami azt a hasznosságot mutatja, amennyit neki „ér” a levél által reprezentált végső helyzet (kimenetel). Tegyük fel, hogy ketten sakkoznak, és pénzfeldobással döntik el azt, hogy ki melyik színnel van. Ennek a játéknak, a fával való ábrázolás esetén, a gyökeréhez V van rendelve, és 1/2 valószínűséggel halad tovább a játék abban a két irányban, amikor A játékos világos, illetve B játékos világos. Utána már csak valódi játékosok lépnek a szabályok adta lehetőségek választásával. Ha elérnek egy levelet, akkor kapjon a győztes 1 pontot, a vesztes -1-et, döntetlen esetében pedig mindketten 0-át. (Így zéróösszegűvé tettük a játékot).
Hogyan definiáljuk egy valódi játékos stratégiáját egy ilyen játékban? A köznapi szóhasználatban a stratégia egy hosszabb távra szóló, nagyvonalú terv. Itt is lényegében erről van szó, a terv azonban az egész játékra vonatkozik, és nem nagyvonalú, hanem minden részletre kiterjed. Kicsit pontosabban: egy stratégia egy játékos teljes magatartásterve, amely minden olyan döntési pontban, ahol az illető játékosnak kell lépnie, megmondja, hogy merre menjen, ha odáig jut a játék. Elképzelhetjük úgy is, hogy egy nagy papírlapon fel van sorolva az összes olyan döntési pont, ahol, mondjuk, az A játékosnak kell döntenie, és melléírjuk azt a lépést, amit akkor tenne, ha ehhez a ponthoz jutna a játék. Ez tényleg egy teljes terv, még olyan pontokban is megmondja, hogy mit kell tenni, ahová a játék éppen ennek a játékosnak egy korábbi lépése következtében el sem juthat. Egy ilyen papírlap birtokában bárki, vagy akár egy számítógép is helyettesíteni tudja a játékost, csak követni kell az utasításokat. Ha csak egy döntési pontban is más lépés van írva a papíron, akkor az már egy másik stratégia. Világos, hogy a játék végessége miatt véges számú stratégia van, és az ezeket tartalmazó papírlapokból összeállíthatunk egy könyvet, a játékos lehetséges stratégiáinak a könyvét. Ha ezt megtesszük minden játékos esetében, akkor az extenzív formában adott játékot normál formájú véges játékká alakítottuk át. A lehetséges cselekvések halmaza egy könyv, egy cselekvés a könyv egy lapja, ha minden könyvből veszünk egy lapot, akkor egy cselekvésprofilt kapunk. Egy cselekvésprofil birtokában bárki le tudja játszani a játékot, csak követni kell a papírlapokon lévő utasításokat, és sorsolni kell, amikor a Véletlen lép. Végül eljutunk a fa egy leveléig, amelyhez meghatározott kifizetések tartoznak. Ha a Véletlen is szerephez jut, akkor a játékosokat itt is a várható kifizetések érdeklik. Egy levélhez való eljutás valószínűségét a gyökértől a levélhez vezető út mentén elhelyezkedő valószínűségek szorzata adja, mert hiszen feltettük, hogy a Véletlen sorsolásai egymástól függetlenek.

Az így nyert normál formájú játékot most már úgy játsszuk le, hogy a játékosok egymástól függetlenül választanak egy lapot a könyvükből, ezt egy játékvezető összegyűjti, és lejátssza a játékot az utasítások szerint (sorsol, ahol kell), majd a végén megtörténik a kifizetés. Így az intellektuális teljesítmény, például a sakkban, a papírlap (stratégia) kiválasztása. A többi mechanikus, a játékosok megbízottai vagy egy játékvezető lejátszhatja a játszmát.

Vegyük észre, hogy az ilyen típusú játékokban, amelyeket tökéletes információjú játékoknak nevezünk, legalábbis elvben, minden játékos tudja, hogy a fa melyik pontjában vagyunk, és a játék minden elemét ismeri. Ha ehhez még azt is hozzávesszük, hogy a játékosok racionalitása is köztudott, egy speciális módszerrel, amit visszafelé görgetésnek vagy visszafelé indukciónak nevezünk, meg is tudjuk határozni a játék egy Nash-egyensúlypontját. Vegyünk egy olyan döntési pontot, amelyből kiinduló lépések már a fa leveleihez vezetnek. Ilyen biztosan van, kivéve azt a triviális és érdektelen esetet, amikor a fa csak egyetlen pontból, a gyökérből áll, ami egyúttal az egyetlen levél. Ha ebben a döntési pontban egy valódi játékosnak (nem a Véletlennek) kell lépni, akkor racionalitására hivatkozva mondhatjuk azt, hogy abban az irányban lép, amely a számára legnagyobb kifizetést adja. A racionalitás köztudott, tehát mindenki tudja, hogy ha a játék ehhez a ponthoz ér, mi fog történni, és milyen kifizetések lesznek. A fának ezeket az ágait levágjuk, és a döntési pont lesz az új, csökkentett méretű fa egy levele. Az eljárást megismételjük, és tesszük ezt mindaddig, amíg el nem jutunk a fa gyökeréhez. Be lehet bizonyítani (nem nehéz!), hogy így egy Nash-egyensúlypontot kapunk, az egyensúlyi stratégiákat a visszafelé görgetés során az egyes pontokban meghatározott kifizetés maximalizáló lépések adják. Hasonlóan lehet kezelni azt az esetet, amikor a Véletlen lép egy döntési pontban, ám ennek részleteivel itt nem foglalkozunk.

A visszafelé görgetéssel konstruktívan bizonyítjuk, hogy egy véges fával ábrázolható tökéletes információjú játéknak van Nash-egyensúlypontja. Minthogy a sakk is ilyen játék, így játékelméleti szempontból determinált: a következő három eset pontosan egyike fennáll:

• Világosnak van olyan stratégiája, amely minden esetben biztosítja a győzelmet, csináljon sötét bármit is.

• Sötétnek van olyan stratégiája, amely minden esetben biztosítja a győzelmet, csináljon világos bármit is.

• Világosnak és sötétnek is van olyan stratégiája, amely alkalmazásával legalább döntetlent érnek el.

A sakk azért továbbra is érdekes játék marad, mert ezek elvi lehetőségek. A valóságban a stratégiák száma csillagászati, és még a leggyorsabb számítógépek számára is reménytelen feladat egy Nash-egyensúlypont meghatározása.

A Nash-egyensúlypont visszafelé görgetéssel való meghatározásának van még egy sajátossága: a részjáték tökéletes Nash-egyensúlypontot határoz meg. Ez azt jelenti, hogy az egész játékra vonatkozó egyensúlyi stratégia továbbra is az marad, ha bármely döntési pontból kiinduló részjátékra szűkítjük le. Az így meghatározott egyensúlyi stratégiákat nem kell tehát útközben megváltoztatnunk a játék lejátszása folyamán. Nem minden egyensúlypont ilyen. Jó példát szolgáltatnak azok a játékok, amelyek nem hihető fenyegetéseket tartalmaznak.

Híres példa az „áruházlánc” játék. Egy áruház fontolgatja, hogy belépjen-e egy áruházlánc uralta piacra. Ha belép, akkor az áruházláncnak kell döntenie, hogy árharcot indít-e, vagy belenyugszik az új helyzetbe. A preferenciák a következők:

A belépőnek a legkedvezőbb, ha belép, és az áruházlánc nem harcol ellene, a legrosszabb, ha belép, és az árharc következtében tönkremegy. Az az eset, amikor nem lép be, a kettő között helyezkedik el.

Az áruházláncnak a legkedvezőbb, ha nincs új belépő, a legrosszabb, ha van belépő, és harcolnia kell, ami sok plusz költséggel jár. A közbülső eset az, amikor belép az új szereplő, és az áruházlánc ebbe belenyugszik.

Ennek a játéknak két Nash-egyensúlypontja van:

• Az áruház belép a piacra, és az áruházlánc nem harcol.

• Az áruház nem lép be, de ha belépne, akkor az áruházlánc harcolna.

Az első részjáték tökéletes (ezt kapjuk a visszafelé görgetéssel), a másik viszont nem az, hiszen ha már az áruház belépett, akkor az áruházláncnak nem érdeke a harc. Itt az a fenyegetés, hogy harc lesz, ha az áruház belép, nem hihető, mivel ez ellentmond az áruházlánc racionalitásának.

Nem minden extenzív játékban van azonban minden játékosnak tökéletes információja. Gyakran előfordul, hogy egy játékos nem tudja pontosan, hogy hol tart a játék a fában, és mégis döntést kell hoznia. Ez a helyzet a legtöbb kártyajátékban. Ismerjük a saját kártyáinkat, de arról, hogy milyen kártyáik vannak a többieknek, csak részleges információnk van. Ugyanez a helyzet, ha egy extenzív játékban nemcsak egymást követő döntések vannak, hanem egyidejűek is. Ezeket a játékokat nem tökéletes információjú játékoknak nevezzük. Leírásukra továbbra is a gráfelméleti modellt, a véges fát használjuk, azzal a kiegészítéssel, hogy a valódi játékosok döntési pontjait információhalmazokba csoportosítjuk. Ha a játék ebbe az információhalmazba ér, akkor a játékos csak azt tudja, hogy ebben a halmazban van, de nem tudja, melyik pontjában. Minden pontból ugyanannyi él indul ki, amelyeket meg lehet úgy jelölni, hogy azonos indexszel jelöltek után ugyanaz a játékos következik majd. Egy információhalmazon a pontok nem lehetnek élekkel összekötve. A tökéletes információjú játék az a speciális eset, amikor minden információhalmaz egy pontból áll.

Ezeknél a játékoknál hasonlóan értelmezzük a stratégiát, mint tökéletes információ esetén: egy stratégia egy utasításrendszer, amely megmondja minden információhalmaz esetében, hogy az ott sorra jövő játékos mit lép, ha a játék oda jut. Az egyensúlypontot és a részjáték tökéletes egyensúlypontját is hasonlóan értelmezzük, kivéve, hogy minden részjáték csak egy pontból álló információhalmazzal kezdődhet (a többieket nem tekintjük részjátéknak). Van azonban két lényeges különbség a tökéletes és a nem tökéletes információjú játékok között:

A nem tökéletes információjú játékoknak nem feltétlenül van Nash-egyensúlypontjuk. Példa erre az érmepárosítás, amit megfogalmazhatunk nem tökéletes információjú játékként a következőképpen. Először Albert lép, vagy fejet, vagy írást. Utána lép Benedek, akinek egy információhalmaza van: Albert két lehetséges lépése, ebben az információhalmazban lehet két irányban, fej vagy írás, lépnie anélkül, hogy tudná, Albert mit lépett. Ennek a játéknak nincs egyensúlypontja.

Ha átalakítjuk a játékot normál formára, akkor viszont már tudjuk, hogy a kevert bővítésnek van Nash-egyensúlypontja.

Nem tökéletes információ esetén nem működik a visszafelé görgetés. Ez nemcsak az egyensúlypontok kiszámítását nehezíti, hanem elveszítjük azt a tisztán csak a racionalitás köztudására épülő forgatókönyvet, amelynek alapján meg tudjuk magyarázni a Nash-egyensúly spontán, bármiféle játékvezetés nélküli létrejöttét.

Abból az idealizált világból, amit a játék minden elemének teljes ismerete jelent, jelentős lépést tett a realitás felé Harsányi János 1967-ben, amikor megalkotta a nem teljes információs játékok máig is leggyakrabban használt modelljét. Ennek feltevése, hogy minden játékos többféle „típusú” lehet, de mindenki csak a saját típusát ismeri, a többiek típusának csak a valószínűségeloszlását, amit vélekedésnek nevezünk. Alapvető feltétel, amit szokás Harsányi-doktrínának nevezni, hogy van a típustéren (a típusprofilok összességén) egy elsődleges (a priori) eloszlás, és a játékosok vélekedései a saját típusukra mint feltételre vonatkozó feltételes eloszlások. Ha például van két játékosunk, és mindkettő típusa balkezes vagy jobbkezes, akkor mindketten tudják a saját típusukat. Van ugyanakkor egy a priori eloszlás a négy lehetőségen (jobbkezes, jobbkezes), (jobbkezes, balkezes), (balkezes, jobbkezes), (balkezes, balkezes), amelyből lehet származtatni a vélekedéseket:

• Feltéve, hogy én balkezes vagyok, mi a valószínűsége, hogy a másik is az?

• Feltéve, hogy én balkezes vagyok, mi a valószínűsége, hogy a másik jobbkezes?

A játékosoknak vannak cselekvési lehetőségeik, és a kifizetésük nemcsak a választott cselekvésprofiltól, hanem a típusprofiltól is függ. Ha két ökölvívóra gondolunk, akkor az ütés eredményessége nemcsak attól függ, hogy milyen ütést választottak, hanem a bal- és jobbkezességüktől is.

A játékosok várható kifizetésük maximalizálásában érdekeltek. A játékot jól lehet értelmezni nem tökéletes információjú játékként, felhasználva a Harsányi-doktrínát. A játék a Véletlen lépésével kezdődik, aki a köztudott a priori valószínűségeloszlás szerint kisorsolja a típusokat. Mindenki megtudja a saját típusát, ami kijelöli az információhalmazokat. Ezek után a játékosok cselekvéseket választanak, majd megtörténnek a kifizetések. Ebben a játékban egy stratégia: a játékos minden típusához hozzárendel egy cselekvést, más szóval egy típus–cselekvés függvény. A Nash-egyensúly, amit ebben az esetben bayesi egyensúlynak neveznek, olyan típus–cselekvés függvényprofil, amelytől egyoldalúan nem érdemes egyik játékosnak sem eltérnie.

Az 5. példában a típusok az egyes licitálók értékelései (mennyire értékelik a festményt), a cselekvések a licitek, a kifizetés pedig 0, ha valaki nem nyeri meg a festményt, és az értékelés és a licit közötti különbség, ha megnyeri. A típusok eloszlására a legegyszerűbb feltevés, hogy egymástól független, egyenletes eloszlásúak egy adott intervallumon. A stratégiák pedig a licitek a saját értékelés függvényében. A bayesi egyensúlyban egyetlen játékosnak sem érdemes a licitfüggvényét megváltoztatnia, ha a többiek nem változtatnak.

Szóljunk néhány szót a kooperatív játékokról is. A legtöbb modell és elemzés átruházható hasznosságot tételez fel, így mi is élünk ezzel az egyszerűsítéssel. Az átruházható hasznosság helyett beszéljünk egyszerűen pénzről, és ekkor csak azt kell feltennünk, hogy minden játékosnak azonos a pénzre vonatkozó hasznossága. Ez lehetővé teszi, hogy pénzzel lehessen kompenzálni játékosokat bizonyos áldozatokért, amelyeket a közjóért hoznak.

Itt is alapvető az a matematikai forma, ahogy a játékot megadjuk. Legelterjedtebb a Neumann János és Morgenstern Oskar (1944) által bevezetett karakterisztikus függvényforma. Tegyük fel, hogy N = {1,2,…,n} az n játékos véges halmaza és S ennek egy tetszőleges részhalmaza, amit koalíciónak nevezünk. A v karakterisztikus függvény minden S koalícióhoz hozzárendel egy v(S) valós számot (hasznosságot), amit a koalíció értékének nevezünk, és úgy értelmezünk, mint az a hasznosság, amit az S koalíció mindenféleképpen tud magának biztosítani tagjai kooperációjával, függetlenül attól, hogy a többi játékos mit csinál. A matematikai absztrakció ezen szintjén nem érdekes, hogy ezt miképp tudják az S koalíció tagjai elérni.

Tegyük fel, hogy megalakul az N nagykoalíció, és megszerzi a v(N) hasznosságot. A leggyakrabban vizsgált kérdés az, hogy hogyan osszák fel a koalíció tagjai ezt egymás között. Természetesen sokféle felosztási elv lehetséges. Hogy csak két szélsőséges esetet említsünk:

Az egyenlő felosztás, amikor mindenki v(N)/n-et kap.

A diktatórikus felosztás, amikor egy játékos, a „diktátor” kap mindent (v(N)-et), és mindenki más semmit.

Mind a két felosztás olyan, amely nem veszi figyelembe az egyes játékosok szerepét, erejét a potenciálisan kialakítható koalíciókban. Nem szívesen egyezik például bele két játékos olyan szétosztásba, amely szerint ketten összesen kevesebbet kapnak, mint amennyit kettejük koalíciója el tudna érni, ha kiválnának a nagykoalícióból.

A 6. példában három játékos a három gyár, A, B és C. A lehetséges koalíciók (A), (B), (C), (AB), (AC), (B,C), (A,B,C). Minden S koalícióhoz hozzárendeljük azt a c(S) költséget, amennyibe kerülne az S tagjai által okozott szennyezés megszüntetése. A karakterisztikus függvény a költségfüggvény -1-szerese. A feladat a c(A,B,C) összköltség szétosztása a játékosok között.

A kooperatív játékoknál is központi kérdés a stabilitás. Itt egy szétosztás vagy a szétosztások egy halmazának stabilitását vizsgálták a legtöbbet. Ezt sokféleképpen lehet megtenni. Ha egy szétosztás olyan, hogy egyetlen koalíció sem tud a tagjainak összesen többet biztosítani, mint amennyit összesen a szétosztásban kapnak, akkor ezt a stabilitás egy formájának tekinthetjük, mert egyetlen koalíciónak sincs meg az ereje a nagykoalícióból való kiválás fenyegetésével a szétosztást destabilizálni. Az összes, ilyen értelemben vett stabil szétosztás halmazát nevezzük a játék magjának. A mag lehet üres is, tartalmazhat túl sok szétosztást is, és így ebből a szempontból hasonló a helyzet a Nash-egyensúlyponthoz a nem kooperatív játékoknál. Szerencsére sok közgazdasági eredetű játékban a mag bizonyíthatóan nem üres (például cserepiaci játékokban vagy a lineáris termelési játékban).

Gyakorlati szempontból, például a 6. példában, egyetlen szétosztást szeretnénk, amely minden esetben létezik. A költségeket valahogyan szét kell osztani. Itt két lehetséges megközelítés van arra, hogy egy szétosztási elvet el tudjunk fogadtatni az érdekeltekkel: választunk egy intuitíven vonzó szétosztási elvet, amelynek kimutatjuk előnyös tulajdonságait.

Felsorolunk olyan előnyös tulajdonságokat mint követelményeket egy szétosztással szemben, amelyekkel remélhetőleg minden játékos egyetért. Utána kimutatjuk, hogy csak egyetlen szétosztás van, amely mindezeket a követelményeket kielégíti. Érdekes, hogy ha egyenként teljesen elfogadható, szinte megkérdőjelezhetetlen követelményekből túl sokat kívánunk meg, akkor előfordul, hogy semmilyen szétosztási elv nem teljesíti azokat egyszerre.

A leghíresebb szétosztás a Shapley-érték (lásd Solymosi Tamás tanulmányát). Itt minden játékos az egyes koalíciókhoz való egyéni hozzájárulásainak átlagát kapja. Számos egyéb szétosztási elv van még, ezekkel még az említés szintjén sem foglalkozunk. Ugyancsak nem érintjük a nem átruházható hasznosságok problémakörét sem.

Abban a reményben hagyjuk itt abba ezt a rövid bevezetőt, hogy az olvasó kedvet kap a többi, a játékelmélet egyes részterületeivel alaposabban foglalkozó tanulmány elolvasásához.

Kulcsszavak: játék, stratégia, extenzív forma, egyensúly, fogolydilemma, koalíció

IRODALOM

Hankiss Elemér (1979): Társadalmi csapdák. Budapest, Magvető

Harsányi, J. C. (1967): Games with Incomplete Information Played by “Bayesian” Players. I–III. Management Science. 18, 159–182., 320–334., 486–502.

Nash, John (1950): Equilibrium Points in N-Person Games. Proceedings of the National Academy of Sciences of the USA. 36, 48–49.

Neumann, John von (1928): Zur Theorie der Gesellschaftsspiele, Math. Ann. 100, 295-320.

Neumann, John von − Morgenstern, Oskar (1944): Theory of Games and Economic Behavior. Princeton University Press, Princeton

Shapley, Lloyd S. (1953): A Value for N-Person Games. in: Kuhn. H. W. − Tucker, A. W. (eds.): Contributions to the Theory of Games. II. Princeton University Press, Princeton, 307–317.