A robotod tudja, hogy dühös vagy, de talán nem …

Kiderült, hogy egy robot, amelyik a legmélyebb sajnálatát fejezi ki és digitális bűnbánatot tanúsít, miután leöntötte a reggeli kávédat, még mindig csak egy robot, amelyik épp most tette tönkre a billentyűzetedet. Egy olyan korszakba lépünk, ahol fémes kollégáinkat már társasági etikettre is programozzák, de egy lenyűgöző új tanulmány szerint a világ összes udvariassága sem képes ellensúlyozni a puszta hozzá nem értést.

A kutatók figyelme egyre inkább a humán-robot interakció (HRI) „lágyabb” tudománya felé fordul. Rájöttek ugyanis, hogy ahogy a robotok elhagyják a gyárakat, és beköltöznek az otthonainkba vagy az irodáinkba, a nyers fizikai képesség már édeskevés. Meg kell érteniük minket. Az IEEE Robotics and Automation Letters folyóiratban nemrég megjelent tanulmány fejest ugrik ebbe a kihívásba: egy kollaboratív robotot tanítottak meg arra, hogy az emberi érzelmeket ne csak az arcunkról, hanem a szituáció teljes kontextusából olvassa ki. Az eredmény? Egy kijózanító – és valljuk be, elég szórakoztató – valóságstatisztika mindenkinek, aki azt hitte, hogy az empatikus robot a technológia végső határa.

Megtanítani a botot, hogy ne legyen elefánt a porcelánboltban

A kutatást Seung Chan Hong vezette a University of Melbourne-ön végzett alapszakos tanulmányai alatt. Csapata úgy döntött, elveti az érzelemfelismerés elavult, unalmas módszereit. Ahelyett, hogy egy statikus arckifejezést elemeznének – ahol a gép könnyen összekeverheti a koncentrációtól ráncolt homlokot a haraggal –, a kutatók egy Vision Language Model (VLM) segítségéhez folyamodtak. Gondoljunk rá úgy, mint a ChatGPT unokatestvérére, akinek szeme is van.

A VLM-et úgy tanították, hogy videókat mutattak neki ember-robot közötti tárgyátadásokról, miközben önkéntesek felcímkézték a látott érzelmeket. Ami döntő jelentőségű: ezek az önkéntesek a teljes képet látták: az elejtett tárgyat, az apró összerezzenést, a türelmetlen ujjdobolást. Ez a kontextusfüggő tréning kifizetődött. Amikor a VLM-et összeengedték egy hagyományos, csak arcelemzésre épülő AI-rendszerrel, a látó-nyelvi modell köröket vert rá: 0,86-os hasonlóságot mutatott az emberi megfigyelők címkéivel, míg a régi modell csak 0,77-et ért el.

„Úgy gondolom, [a VLM] sokkal jobban tudott azonosulni azzal, amit az emberi megfigyelők láttak, mert nem csak egy rövid ideig figyelte az illető arcát, hanem az egész jelenetet átlátta” – jegyezte meg Hong az IEEE Spectrumnak adott interjújában.

Hibátlan bocsánatkérés a csapnivaló teljesítményért

Itt válik igazán érdekessé a történet. A csapat tervezett egy kísérletet 40 önkéntessel. Mindenkinek a VLM-mel felszerelt robottal kellett együttműködnie, amelyet szándékosan úgy programoztak, hogy hibázzon. A borítékolható baki után a robot kétféleképpen kérhetett bocsánatot: egy sablonos, előre megírt szöveggel, vagy egy „érzelmileg adaptív” változattal, amit az alany látható frusztrációjához szabtak.

Az eredmények egyértelműek voltak: az emberek toronymagasan azt a robotot preferálták, amelyik képes volt leolvasni a bosszankodásukat, és ahhoz igazította a „sajnálom”-ot. A 40 résztvevőből 31-en az érzelmileg ráhangolt választ választották. Úgy tűnik, a személyre szabott bocsánatkérés hatékony „szociális kenőanyagként” működik.

De itt jön a csattanó. Amikor a robotba vetett bizalomról kérdezték őket, a résztvevők értékelései minden csoportban zuhanni kezdtek, függetlenül attól, hogy milyen szépen kért elnézést a gép. A kőkemény igazság az, hogy egy robot lehet érzékeny, mint egy költő, de ha nem tudja elvégezni az egyetlen feladatát, nem fogunk bízni benne. Ahogy Hong nyersen fogalmazott: a bocsánatkérés „nem tudja helyrehozni azt a bizalmat, amit a robot a fizikai feladat elszúrásával veszített el”.

Nem gondolatolvasó, csak jól tippel

A tanulmány egy másik kritikus korlátra is rávilágított. Bár a VLM remekül utánozta a külső emberi megfigyelőt, az érzelemtippelési képességei látványosan bezuhantak, amikor az önkéntesek valódi megéléseivel (a saját bevallásuk szerinti érzelmekkel) vetették össze.

Ez rávilágít a külső szociális jelzések észlelése és a belső érzések megértése közötti alapvető szakadékra. A VLM kiszúrta a lefelé görbülő szájat és a lógó vállakat, amiből helyesen következtetett a „szomorúságra”, de képtelen volt felfogni a csalódottság, a frusztráció vagy az elárultság finom árnyalatait, amit a felhasználó belül érzett. „Bár a VLM jó megfigyelője a külső jeleknek, nem gondolatolvasó” – magyarázta Hong.

Ez a kutatás létfontosságú emlékeztető az egész robotikai ipar számára. Bár az érzelmileg intelligens, életünkbe észrevétlenül integrálódó gépek keresése nemes cél, ez nem mehet az alapvető megbízhatóság rovására. Mielőtt olyan robotot fejlesztenénk, amelyik vállat kínál a síráshoz, előbb győződjünk meg róla, hogy egyáltalán nem önti ki a teát. A teljes tanulmányt – „Can Robots Read Your Mind? A User Study on Inferring Human Emotions in HRI” – az IEEE Xplore oldalán olvashatják el.

A robotod tudja, hogy dühös vagy, de talán nem érdekli

Megtanítani a botot, hogy ne legyen elefánt a porcelánboltban

Hibátlan bocsánatkérés a csapnivaló teljesítményért

Nem gondolatolvasó, csak jól tippel

Javítás vagy javaslat küldése

NVIDIA's ENPIRE Lets AI Agents Run a Robot Research Lab, No Humans Required