Magyar Tudomány, 2007/02 195. o.

Beszéd és beszédtudomány II.A beszélő személy azonosítása

a beszéd fonetikai

paraméterei alapján


Nikléczy Péter


fonetikai szakmunkatárs, MTA Nyelvtudományi Intézet

nikleczy nytud.huA fonetikával, beszédakusztikával foglalkozó szakemberek alapos vizsgálatokat végeztek a beszédprodukció legtöbb területén. Az akusztikai elemzésekkel mintegy rekonstruálhatóvá vált a beszéd, sőt – bizonyos korlátokkal – beszédfelismerő rendszerek is működnek már. Azzal a ténnyel azonban, hogy az emberi hang tartalmazza a beszélő egyéni jellemzőit is, csak az utóbbi évtizedekben kezdtek behatóan és körültekintően foglalkozni. Az 1990-es évek óta egyre fontosabbá vált a beszélő személy azonosítása a hangja, a beszéde alapján. Egyfelől a polgári élet és az ipar számos területén (beléptető, biztonsági rendszerek), másfelől a kriminológiai alkalmazásokban (például a rendőrséghez beérkezett hívások beszélőjének azonosítása) jelentkezett egyre nagyobb igény a személyazonosítási vizsgálatokra. A fonetikai személyazonosítás az ún. törvényszéki fonetika tárgya (forensic phonetics). Ezek a kutatások a beszélő személy egyértelmű, kétséget kizáró felismerésének akusztikai-fonetikai megoldási lehetőségeivel foglalkoznak. Az utóbbi évtizedben jelentős eredmények születtek ezen a területen (például Rose, 2002; a magyarra: Gósy-Nikléczy, 1999; Nikléczy, 2003). A probléma-megközelítések sokfélék, a matematikai számításoktól, az akusztikai méréseken át a szoros értelemben vett fonetikai és percepciós kísérletekig.

A probléma elméleti aspektusa az emberi hangszínezet kérdéskörében gyökerezik. Milyen mértékben jellemző az emberre a hangja, illetőleg a beszéde? A hangszínezet mely beszédképzési konfigurációval mutatja a legszorosabb kapcsolatot? A zönge, a toldalékcső, avagy az artikulációs mozgások a meghatározók, avagy valamennyi együtt eredményezi a hangszínezet nyújtotta percepciós élményt? A mindennapi életben általában metaforákkal jellemezzük a beszélő hangszínezetét: bársonyos, borízű, lágy, érces, érdes hang stb. A beszélőfelismerés alkalmazott fonetikai vizsgálatának célja, hogy meghatározza a beszélő személy azonosításához szükséges különféle tényezőket. A tudománynak arra a kérdésre kell mindenekelőtt válaszolnia, hogy vajon a beszéd valóban olyan mértékben jellemző-e az egyénre, hogy az kétséget kizáróan kimutatható. Ha erre igen a válasz, a további kérdések a beszélő azonosításának (szak)módszertani megoldásait és az azonosítás biztossági fokának meghatározását érintik.

A beszélő személy meghatározása a kriminalisztikában rendkívül bonyolult, többlépcsős feladat. Nem csupán az artikulációs csatorna mint „biológiai szerkezet” által képzett hang pontos akusztikai reprodukálási nehézsége miatt, hanem a bűnügyekben rendelkezésre álló hanganyagok rövid időtartama és általában rossz minősége miatt. A rossz minőség sok esetben egyfelől a telefonvonalak szűk frekvenciasávját, másfelől a szakszerűtlen hangrögzítést jelenti. Mindez pedig erősen korlátozza az elemezhetőséget. Az 1. ábra blokkdiagramja a beszélő személy azonosításának lépéseit mutatja különféle esetekben.

Az elemzés kiindulása a beszélő neméről, a nyelvi tartalomról, az esetleges kiejtési hibákról, avagy a nyelvjárási sajátosságokról ad felvilágosítást. A továbbiakban az azonosság megállapítására különböző típusú hangelemzéseket kell végezni. A korszerű digitális jelanalizáló programok lehetőséget adnak a beszéd szegmentális (hangok, hangsorok, szavak stb.) és szupraszegmentális szerkezetének (dallam, hangsúly, tempó stb.) átfogó vizsgálatára. Jól használható a Kay Elemetrics által fejlesztett CSL-sorozat (komputerizált beszédlaboratórium) vagy a szabad felhasználású (internetről letölthető) Praat-verziók. E programok segítségével a tradicionális hangspektrográfián kívül FFT-, LPC-, LTA-, cepstrum-analízis (stb.) elvégzésére is lehetőség van. A legfontosabb a beszédhang felhang- és formánsszerkezetének meghatározása, illetve – ha lehetőség van rá – a dallamstruktúrák és a hangsúlyviszonyok akusztikai jellemzőinek vizsgálata. A beszélő személy az általa képzett primér hanggal bizonyos fokig lenyomatot ad a hangszalagjainak vastagságáról, az artikulációs csatornájának hosszáról és egyéb tulajdonságairól. Ezek az egyéni jellemzők jelennek meg a beszédhang akusztikumában, ill. energiaspektrumában. Minthogy a beszéd képzésének következménye az akusztikai jel, ebből visszakövetkeztethetők bizonyos artikulációs sajátosságok. A Jó napot kívánok. mondat artikulációs eltéréseinek akusztikai következményeit szemlélteti a 2. ábra három hangszínképe (három nő bemondásában). Mivel ez az üdvözlési forma a mindennapi életben gyakori, ezért a sokszor ismételt artikulációs mozgások miatt jól jellemzi a beszélőt; a különbségek szembetűnők. A hangszínképeken az azonos hangok formánsszerkezetében, időtartamában és a beszéd alaphangértékében is lényeges eltérések láthatók. A bűnügyi fonetika gyakorlatában azonban nem ritka, hogy az elemzendő hanganyag nem tartalmaz azonos szavakat vagy hangkapcsolatokat az összevetéshez. Ilyenkor az azonos beszédhangok tiszta fázisát, illetve a hangok átlagolt energiaspektrumát kell figyelembe venni a személyazonosság megállapításához. Az akusztikai-fonetikai elemzéseket minden esetben percepciós vizsgálatsorozat egészíti ki.

A fentiekben leírt rövid áttekintéssel megpróbáltuk megvilágítani a fonetikai alapú beszélő személyazonosítás leglényegesebb elemeit és problémáit. A gyakorlatban minden esetben sokoldalú, igen sok részletre kiterjedő vizsgálat szükséges a biztos azonosság megállapításához, illetve az azonosság valószínűségi szintjének megítéléséhez.


Kulcsszavak: bűnügyi fonetika, hangspektrográfia, beszélő személy fonetikai sajátosságai, hangszínezet


1. ábra • A a fonetikai alapú beszélőazonosítás folyamatának sémája

2. ábra • A Jó napot kívánok mondat spektrografikus képe három személy ejtésében


Irodalom

Gósy Mária – Nikléczy Péter (1999): A beszélő felismerése a beszéde alapján: elméleti háttér és módszertani megközelítések. In: Gósy Mária (szerk.): Beszédkutatás ’99. MTA Nyelvtudományi Intézet, Budapest, 1–19.

Nikléczy Péter (2003): A zönge periódusidejének funkciója a hangszínezetben. In: Gósy Mária (szerk.): Beszédkutatás 2003. MTA Nyelvtudományi Intézet, Bp., 101–113.

Rose, Philip (2002): Forensic Speaker Identification. Taylor and Francis, London – New York


<-- Vissza a 2007/02 szám tartalomjegyzékére


<-- Vissza a Magyar Tudomány honlapra


[Információk] [Tartalom] [Akaprint Kft.]