Évekig a robotika a zseniális hardverek agyra váró története volt. Láttunk már mechanikus kutyákat hátraszaltózni, és gyári karokat hipnotikus precizitással dolgozni, de ezek többnyire csak egy előre megírt forgatókönyvet ismételgettek. Kérj tőlük valami újat, és a néma, fémes üres tekintetével szembesültél. Úgy tűnik, ez a korszak most egy csikorgó, méltatlan leállással ér véget.
Színre lép a Google DeepMind robotok új osztálya, amelyek kevésbé előre programozott automaták, inkább… gondolkodó kollaboránsok. A kaliforniai laborjukban tartott friss bemutatón a cég olyan gépek flottáját mutatta be, amelyek nem csupán látnak és cselekszenek; értenek, terveznek, sőt gondolkodnak is, mielőtt lépnének. A titkos recept nem a jobb fogaskerekekben vagy motorokban rejlik, hanem ugyanazoknak az erőteljes AI-modelleknek a beültetésében, amelyek a Gemini modelleket is hajtják. Az eredmény: robotok, amelyek elképesztő ügyességgel képesek bepakolni az ebédedet, majd mulatságosan, szó szerint, megtagadják, hogy Batman módjára tegyék.
Az erő mögött rejlő két részes agy
Az alapvető változás, ahogy Keshkaro, a Google DeepMind robotikai igazgatója magyarázza, az, hogy a robotokat nagyméretű Látás-Nyelv-Cselekvés (VLA) modellekre építik. Ahelyett, hogy egy specifikus feladatra programoznák őket, ezek a robotok általános világismeretet kapnak. Kiaknázzák a Gemini-hez hasonló modellekbe ágyazott óriási tudást, hogy olyan módon értsék meg a fogalmakat, tárgyakat és utasításokat, ami korábban a sci-fi birodalmába tartozott.
A Google architektúrája gyakorlatilag egy kétrészes aggyal ajándékozza meg a robotot:
- Gemini Robotics-ER (Embodied Reasoning): Ez a stratégiai tervező. Amikor egy komplex, hosszú távú feladatot kap – például „takarítsd le ezt az asztalt a helyi újrahasznosítási szabályok szerint” – ez a modell a magas szintű agyként működik. Akár a Google Keresőt is használhatja, hogy megkeresse a szükséges információkat, mielőtt egy lépésről lépésre haladó tervet készítene.
- Gemini Robotics VLA (Vision-Language-Action): Ez a végrehajtó. A gondolkodó modellből kapott egyszerű, szekvenciális utasításokat a fizikai cselekvés végrehajtásához szükséges pontos motorparancsokká fordítja le.
Ez a munkamegosztás lehetővé teszi, hogy a robotok túlmutatjanak az egyszerű, rövid távú cselekvéseken, mint például „vedd fel a kockát”, és többlépéses, komplex célokat oldjanak meg, amelyek valódi problémamegoldást igényelnek.
A gondolkodás teszi lehetővé
Talán a leglenyűgözőbb áttörés a „gondolatlánc” alapú érvelés alkalmazása a fizikai cselekvésekre. Láttuk már ezt nyelvi modelleknél, ahol az AI-tól kért „lépésről lépésre történő gondolkodás” javítja a kimenetét. A DeepMind most „belső monológot” adott a robotjainak. Mielőtt egy robot mozogna, természetes nyelven generálja gondolatmenetét.
„Rávesszük a robotot, hogy gondolkodjon el a cselekvésen, mielőtt megtenné azt” – magyarázza Keshkaro a videós bemutatóban. „Már pusztán az, hogy kinyilvánítja a gondolatait, sokkal általánosabbá és hatékonyabbá teszi.”
Ez nem csupán egy akadémiai gyakorlat. Az, hogy rákényszerítik a robotot a tervének megfogalmazására – „Oké, fel kell vennem a kenyeret, és óvatosan be kell helyeznem az apró Ziploc zacskó nyílásába” – segít strukturálni azokat a komplex cselekvéseket, amelyeket az emberek intuitívan hajtanak végre. Bizarr, de hatékonyan megjelenő tulajdonság: ahhoz, hogy egy robot jobban teljesítsen fizikai feladatokban, először meg kell tanítanod, hogy beszéljen magával.
Az ebéd felszolgálva… végül is
A bizonyíték, ahogy mondani szokás, a puding próbája – vagy jelen esetben a bepakolt uzsonna. Az egyik legmeggyőzőbb bemutató egy Aloha robotkart érintett, amelynek az volt a feladata, hogy elkészítsen egy uzsonnás dobozt. Ez egy olyan feladat, amely a csapat szerint „milliméteres pontosságú precizitást” igényel, különösen egy vékony, ingatag Ziploc zacskó kezelésekor.
A robot munkáját nézve egy mesterkurzus a jelenlegi technológiai színvonalról. Elképesztően lenyűgöző, mégis bájosan tökéletlen. A robot ügyesen kinyitja a zacskót, óvatosan behelyez egy szendvicset, majd hozzáad egy csokoládét és szőlőt. Kicsit ügyetlenkedik, korrigálja magát, és tovább próbálkozik – messze van a törékeny, hibára hajlamos robotoktól, amelyek, ahogy Hannah Fry műsorvezető felidézte, néhány éve még leginkább csak törött Lego halmokat gyártottak. Ez az ügyesség nem merev kódból, hanem emberi demonstrációból, teleoperáció útján tanulható, ahol egy operátor „megtestesíti” a robotot, hogy megtanítsa neki a helyes mozdulatokat.
„Nem tudok cselekedni egy adott karakterként”
Míg az egyik bemutató az ügyességet demonstrálta, a másik a rendszer általánosíthatóságát és mulatságosan szó szerinti nyelvi értelmezését emelte ki. Amikor megkérték, hogy „tedd a zöld kockát a narancssárga tálcára, de tedd úgy, ahogy Batman tenné,” a robot megállt.
Válasza, rideg, robotikus hangon elmondva, felbecsülhetetlen értékű volt: „Nem tudok cselekedni egy adott karakterként. Azonban el tudom helyezni a zöld kockát a narancssárga tálcára.”
Az eszmecsere tökéletesen megragadja e rendszerek erejét és jelenlegi korlátait. A robot tökéletesen megértette az alapvető utasítást, és eldobta az értelmetlen, stiláris sallangot. Világszínvonalú tudása van a cselekvésekről és tárgyakról, azonban nulla fogalma van a kulturális személyiségekről. Általános célú robot, nem egy method actor.
Ez a bepillantás a DeepMind laborjába felfedi, hogy a robotika területe végre megéli a „szoftveres” pillanatát. A nagyszabású AI monumentális fejlesztéseit kihasználva a Google olyan platformot teremt a robotok számára, amelyek képesek tanulni, alkalmazkodni és gondolkodni a valós világban. Lehet, hogy még nem állnak készen szuperhősök megszemélyesítésére, de már csomagolják az ebédünket. És mindazok számára, akik valaha is sietősen rohantak ki az ajtón reggel, ez lehet a leghősiesebb tett mind közül.






