A robotika nem kap ChatGPT-pillanatot - mondják a …

Ömlik a kockázati tőke, a YouTube-demók nézettsége a sztratoszférát súrolja, az ígéretek pedig negyedévről negyedévre egyre merészebbek. Miután láttuk, ahogy az OpenAI-féle ChatGPT és a nagy nyelvi modellek (LLM) gyakorlatilag egyetlen éjszaka alatt gyarmatosították a digitális világot, mindenki ugyanazt a többmilliárd dolláros kérdést teszi fel: Mikor jön el végre a robotika “ChatGPT-pillanata”?

Két olyan szakember szerint, akik az “embodied AI” (testet öltött mesterséges intelligencia) frontvonalában harcolnak, a válasz rövid és tömör: soha. És valószínűleg jobban járunk, ha hallgatunk rájuk. Jonathan W. Hurst, az Agility Robotics társalapítója (ők alkották meg Digit-et, a humanoid robotot), valamint Hans Peter Brøndmo, aki a Google X-nél az Everyday Robots projektet vezette, közzétettek egy igencsak időszerű kijózanító elemzést. Gyakorlatilag egy vödörnyi jéghideg, ipari minőségű hűtővizet öntöttek a száguldó hype-vonatra, azt állítva, hogy nem érkezik majd egyetlen, mágikus MI-áttörés, amely egy csapásra mindent megold. A hasznos robotokkal teli világig vezető út kimerítő, aprólékos és kifejezetten “nem szexi” mérnöki munkával van kikövezve.

Mivel a robotikai szektorba áramló kockázati tőke 2024-ben elérte a 6,1 milliárd dollárt (szemben a 2023-as 5,1 milliárddal), a tét csillagászati. Hurst és Brøndmo azonban úgy érvelnek, hogy a látványos demók és a kereskedelmi forgalomba hozható, biztonságos és megbízható robotok közötti szakadék továbbra is tátong.

A nagy illúzió: A YouTube-demók boncolgatása

Mindannyian láttuk már ezeket a videókat. Humanoid robotok, amik hibátlan hátraszaltót ugranak, szinkronban táncolnak, vagy precízen koreografált harcművészeti mozdulatokat mutatnak be. A legutóbbi virális szenzáció a Unitree Robotics humanoidjait vonultatta fel, akik egy kung-fu bemutatót tartottak a 2026-os kínai tavaszünnepi gálán – lenyűgöző koordinációval, alig néhány centire a fellépő gyerekektől.

Hurst és Brøndmo gyorsan rámutatnak arra, amit a bennfentesek már évek óta tudnak: „Soha ne higgy egy robotikáról készült YouTube-videónak!” Ezek az előadások, bár technikailag bravúrosak, valójában egy aprólékosan megtervezett Broadway-show robotikai megfelelői. Kiváló motoros kontrollról és koreográfiáról tanúskodnak, de az autonómiájuk szintje közelebb áll egy futószalag mellett dolgozó géphez, mint egy gondolkodó lényhez. A való világ – a maga kaotikus, kiszámíthatatlan és makacsul forgatókönyv-ellenes természetével – teljesen más tészta. Ez a Moravec-paradoxon klasszikus esete: azok a feladatok, amelyek egy ember számára triviálisak (például eligazodni egy zsúfolt szobában), egy robotnak felfoghatatlanul nehezek, míg a komplex számítások gyerekjátéknak számítanak nekik.

Az adatgyűjtés: Egy le nem győzött, héraklészi kihívás

Az LLM-ek óriási előnnyel indultak: az interneten, az emberiség által generált szövegek és képek kolosszális adatbázisán tanultak. A robotoknak nincs ilyen luxusuk. A tanuláshoz a fizikai világból származó adatokra van szükségük – egy olyan sokdimenziós térből, ahol a változók a csuklóízületek szögétől és az erővisszacsatolástól kezdve a fényviszonyokon át az emberek kiszámíthatatlan mozgásáig mindent lefednek.

A kihívás léptéke döbbenetes. Az Everyday Robots-nál Brøndmo csapata 2022-ben 240 millió szimulált robotpéldányt futtatott csak azért, hogy megtanítsanak egy modellt a szemét válogatására – és még így is csak a “majdnem elfogadható” szintig jutottak. Ez egyetlen, viszonylag egyszerű készség volt. Most szorozzuk meg ezt az erőfeszítést azzal a szinte végtelen számú feladattal, amit egy általános célú robottól elvárnánk. Ez egy teljesen más nagyságrendű adatgyűjtési probléma, amelyre egyelőre nincs átfogó megoldás. Magát a projektet végül 2023 elején le is állították az anyavállalat, az Alphabet szélesebb körű költségcsökkentési intézkedései keretében.

Nem lesz egyetlen, mindentudó “Robot-MI”

Az az elképzelés, hogy létezik majd egyetlen, monolitikus MI-modell, amely bármilyen robotot – legyen az kerekes, lábas, repülő vagy úszó – képes irányítani, tiszta sci-fi. A különböző fizikai felépítések és környezetek realitásai túl távol állnak egymástól. A szerzők szerint a nyerő architektúra az úgynevezett “ágensalapú MI” (agentic AI) lesz. Ez olyan magas szintű koordináló modelleket jelent, amelyek képesek érvelni, tervezni és feladatokat delegálni kisebb, specializált MI-eszközöknek. Az egyik modell kezelheti a kétlábú járást, a másik a finommanipulációt, a harmadik pedig a biztonságos ember-robot interakcióért felel.

Ez a moduláris megközelítés vezethet el a hasznos, intelligens gépek „kambriumi robbanásához”. Nem egyetlen ősrobbanás lesz, hanem a különféle, specializált képességek kivirágzása, amelyek megfelelő összehangolásával jön létre egy valóban kompetent gép.

A hardver még mindig fájdalmasan nehéz ügy

Minden MI-fókusz ellenére a robot továbbra is egy fizikai tárgy. És a hardver – különösen azok a részek, amelyek a világgal való interakciót teszik lehetővé – továbbra is szűk keresztmetszetet jelent. A legtöbb ipari robot merev, bivalyerős aktuátorokat használ, amelyek fantasztikusak a precíziós munkához egy elkerített területen, de katasztrofálisak emberi környezetben. Egyetlen véletlen ütközés is végzetes lehet.

Az ember ezzel szemben “alkalmazkodó” (compliant). Folyamatosan használjuk az érintést és az erővisszacsatolást, legyen szó egy kulcs beillesztéséről a zárba, vagy arról, hogy nekitámaszkodunk a pultnak. Ahhoz, hogy a robotok ezt elérjék, az aktuátorok új generációjára van szükség: olyanokra, amelyek érzékenyek, rugalmasak és erőérzékelősek. Bár a laboratóriumokban már léteznek ilyenek, még nem állnak rendelkezésre abban a méretben, áron és megbízhatósági szinten, ami a tömeges elterjedéshez kellene. A világ legbriliánsabb MI-je is haszontalan, ha a teste egy ügyetlen és veszélyes monstrum.

A valódi érték az “egyszerű” problémák megoldásában rejlik

A végső, és talán legfontosabb igazság az, hogy a valódi érték nem a hátraszaltókból származik. Hanem abból, ha a robot megbízhatóan elvégzi azokat a hétköznapi, ismétlődő és fizikailag megterhelő munkákat, amiket az emberek nem akarnak megcsinálni. Itt dől el minden – vagy ahogy a mondás tartja: itt ér le a robotláb a raktárpadlóra.

Mindkét szerző tapasztalatból beszél. Amikor az Agility Robotics elkezdte Digit-et élesben is bevetni olyan partnereknél, mint a GXO Logistics, gyorsan rájöttek, hogy az első nagy akadály nem a feladat elvégzése volt, hanem a biztonság. Ez egy többéves mérnöki folyamatot indított el, hogy a robotot újratervezzék az emberi környezetben való biztonságos működésre. Hasonlóképpen, a Google Everyday Robots csapata saját bőrén tapasztalta meg, milyen kaotikus és nehéz terep egy látszólag egyszerű irodai kantin egy asztaltakarításra kiképzett robot számára.

Ez a gyakorlati tapasztalat az egyetlen út előre. Ez formálja az MI-architektúrát, rávilágít a hardveres hiányosságokra, és a földre kényszeríti a nagyratörő ütemterveket az ügyféligények rideg valóságával. A robotika jövője közeledik, de nem egyetlen nagy ugrással, hanem megfontolt, precízen megtervezett lépésekkel fog megérkezni.

A robotika nem kap ChatGPT-pillanatot - mondják a szakértők

A nagy illúzió: A YouTube-demók boncolgatása

Az adatgyűjtés: Egy le nem győzött, héraklészi kihívás

Nem lesz egyetlen, mindentudó “Robot-MI”

A hardver még mindig fájdalmasan nehéz ügy

A valódi érték az “egyszerű” problémák megoldásában rejlik

Javítás vagy javaslat küldése