DeepMind víziója: Egy MI minden robotot irányítson

Évekig a robotika iparág egy egyszerű, bár frusztráló feltevés mentén működött: építs egy robotot, aztán építs egy egyedi agyat hozzá. Egy másik kar, egy új kerékszett, egy eltérő feladat? Kezdheted az egészet a nulláról. Ez a fáradságos, egyszeri megközelítés szakemberek hadát hagyta maga után, de igazi mindenes egy sem született. Ezért van az, hogy a Roomba porszívód nem tud szendvicset készíteni, és egy gyári kar sem viszi le a kutyát sétálni. De mi van akkor, ha egyetlen AI képes lenne mindegyiket irányítani?

Ez a Google DeepMind merész célja, ahol Carolina Parada, a robotikai csapat vezetője egy csendes forradalmat felügyel. Egy közelmúltbeli, átfogó interjúban a The Humanoid Hub számára, Parada felvázolta azt a jövőképet, amely az egyedi programozást egy univerzális, adaptív intelligenciára cseréli. A csapat „vezércsillaga”, ahogy mondja, nem más, mint „az AGI megoldása a fizikai világban”. Miközözben a világ többi részét elbűvölte a ChatGPT költészete 2022-ben, Parada megjegyzi, hogy csapata kevésbé volt meglepve, mivel belsőleg már dolgoztak nagy nyelvi modelleken. Az igazi tanulság, úgy érezte, az volt, hogy látta, mekkora érték rejlik abban, ha a kutatást a nyilvánosság kezébe adják.

A gemini agy, egy robot testében

Ezen ambíció motorja a Gemini Robotics 1.5, a DeepMind megtestesült AI alapmodelljének legújabb iterációja. Ez nem csupán egy újabb chatbot, amit egy vázba ültettek. Ez egy igazi látás-nyelv-akció (VLA) modell, amelyet az alapoktól kezdve úgy terveztek, hogy érzékeljen, gondolkodjon és cselekedjen a kaotikus, kiszámíthatatlan fizikai világban. „A Gemini Robotics hozzáadja azt a képességet, hogy a fizikai terekről gondolkodjon – lehetővé téve a robotok számára, hogy valós cselekvéseket hajtsanak végre a való világban” – ahogy a Google leírta.

Az 1.5-ös frissítés három pillérre fókuszál: a generalizációra, az interaktivitásra és a kézügyességre. Ennél is fontosabb, hogy bevezeti azt, amit a DeepMind „fizikai ágenseknek” nevez. Ez a rendszer egy két részből álló agyat használ:

  • Gemini Robotics-ER 1.5: Az „Embodied Reasoning” (Megtestesült Érvelés) modell stratégiai tervezőként működik. Egy komplex parancsot, mint például „takarítsd fel ezt a kiömlött cuccot”, logikus lépésekre bontja. Akár olyan eszközöket is használhat, mint a Google Kereső, hogy olyan információkat keressen, amelyekkel nem rendelkezik.
  • Gemini Robotics 1.5 (VLA): Ez a motoros kéreg, amely a gondolkodó modell lépésről lépésre haladó tervét lefordítja precíz fizikai cselekvésekké, bármilyen testben is találja magát.

Ez az architektúra lehetővé teszi a robot számára, hogy „gondolkodjon cselekvés előtt”, belső monológot generálva a probléma átgondolásához, ezzel átláthatóbbá és, őszintén szólva, intelligensebbé téve döntéseit.

A szent grál: Kereszt-testi átviteli képesség

A legjelentősebb ugrás azonban az, amit Parada „kereszt-testi átviteli képességnek” nevez. Az ötlet az, hogy egy robot által megtanult képesség zökkenőmentesen átvihető egy teljesen más gépre, újratanítás nélkül. „Valójában ugyanaz a súlyrendszer működik mindegyikben” – magyarázza Parada, utalva a bi-arm ALOHA, a Franka robot és az Apptronik Apollo humanoidja közötti tesztekre.

Ez radikális eltérés az iparági normától. Egy kerekes robot által megtanult feladat elméletileg informálhatja, hogyan hajt végre egy humanoid hasonló cselekvést. Ez a kulcs ahhoz, hogy kilépjünk az egyedi platformfejlesztés végtelen ciklusából. „Valóban hiszünk egy olyan jövőben, ahol nagyon széles skálájú, rendkívül gazdag ökoszisztéma lesz, sok különböző robotípussal” – állítja Parada. „Ha azt mondjuk, hogy meg akarjuk oldani az AI-t a fizikai világban, az számunkra azt jelenti, hogy elég okosnak kell lennie ahhoz, hogy bármely robotba bele tudjon testesülni.”

Ez a koncepció a DeepMind korábbi munkájára épül, olyan modellekkel, mint az RT-X, amelyet 22 különböző robot típustól, 33 akadémiai laborból gyűjtött hatalmas adathalmazon képeztek ki. Ez a projekt bebizonyította, hogy a diverz hardvereken történő közös képzés emergnes képességekkel és a térbeli kapcsolatok jobb megértésével ruházta fel a modellt. A Gemini Robotics 1.5 ennek az elvnek a turbófeltöltött evolúciójának tűnik.

Változó időhorizont

A robotikusok számára az a vágyálom, hogy egy gép egyszerűen csak figyeljen egy embert és tanuljon, mindig is távoli volt. „Korábban a csapatban mindenki azt gondolta, ‘á, ez a karrierem után fog megtörténni’” – ismeri el Parada. „Most pedig már arról beszélgetünk, hogy mennyire távoli időtávról beszélünk? Öt év? Tíz év?”

Ez a gyorsulás tapintható. Bár Parada elismeri, hogy a humanoidok „fontos tényezők”, mivel a mi világunkra tervezték őket, visszautasítja azt az elképzelést, hogy ők lennének az egyetlen fontos tényezők. A DeepMind víziója hardverfüggetlen. Az intelligencia a termék, nem pedig az a fémhéj, amit elfoglal.

A végső kihívás? Az otthonaink. Parada úgy véli, az otthon lesz a robotika „egyik utolsó határa”, pontosan azért, mert annyira strukturálatlan és kaotikus. Egy gyári padló kiszámítható; egy családi konyha azonban bármi, csak nem az.

Egy agy, hogy mindet összekösse

A DeepMind stratégiája egy alapvető fogadást képvisel: a robotika jövője nem a jobb hardverben rejlik, hanem egy univerzálisabb, skálázhatóbb intelligenciában. Az AI „agy” és a robot „test” szétválasztásával egy olyan alapmodellt kívánnak létrehozni, amely egyszerre tanulhat minden robottól, kumulálva tudását egy globális gépflotta során.

Ez egy olyan megközelítés, amely végre megtörheti azt az egy-robot, egy-agy szűk keresztmetszetet, amely évtizedekig korlátozta a területet. Nem csupán egy okosabb robotot kapunk; egy univerzális pilóta születésének vagyunk tanúi, készen arra, hogy bármilyen gépbe bele tudjon testesülni, amit csak építhetünk. A Jetson család robotkomornyikja, úgy tűnik, épp most tett egy hatalmas, kereszt-testi ugrást előre.