Figure Helix 02: Kód helyett mesterséges agy végzi a házimunkát

A humanoid robotok évek óta a technológiai világ esetlen kamaszai: zseniálisak, ha előre betanított tánclépésekről vagy hátraszaltókról van szó, de reménytelenül kétbalkezesek, amint egy egyszerű házimunkát kellene elvégezniük. A robotikai ipar hosszú ideje toporog a „loco-manipulation” – azaz a helyváltoztatás és a finommanipuláció összehangolásának – problémájánál. Ez az a pokolian összetett feladat, amikor a robotnak egyszerre kellene járnia és a kezét használnia anélkül, hogy egy kupacnyi méregdrága, megbánással teli fémhulladékká omlana össze.

Itt jön a képbe a Figure AI és a Helix 02. Ez az új AI-modell nemcsak egyszerre jár és rágózik, hanem járás közben kényes edényeket cipel, és egyetlen, négyperces, teljesen autonóm folyamat során kipakolja a mosogatógépet. Ez nem egy újabb agyonvágott, rövid távú tech-demó. Ez annak a bizonyítéka, hogy egyetlen neurális háló képes irányítani egy teljes humanoid testet a pixelektől a motorok nyomatékáig, végre áthidalva a szakadékot a mozgás és a tárgyak kezelése között.

A Frankenstein-kód korszakának vége

Hagyományosan egy humanoid robot munkára fogása egyfajta szoftveres Frankenstein-szörny összeeszkábálását jelentette. Az egyik vezérlő felelt a járásért, ami átadta a stafétát egy másiknak a stabilizáláshoz, az pedig egy harmadiknak a nyújtózkodáshoz és a fogáshoz. Az eredmény? Lassú, darabos és végtelenül természetellenes mozgás. Ha egy tárgy váratlanul elmozdult, az egész törékeny logikai kártyavár összeomlott.

„A valódi autonómiához valami alapvetően másra van szükség: egyetlen tanulási rendszerre, amely egyszerre értelmezi az egész testet” – áll a Figure közleményében. „Egy rendszerre, amely folyamatosan észlel, dönt és cselekszik.”

Ez az a központi probléma, amelynek megoldására a Helix 02 született. Ahelyett, hogy különálló rendszereket varrtak volna össze, a Figure egy hierarchikus AI-architektúrát hozott létre, amely egységes egészként gondolkodik és cselekszik.

Háromszintű agy a testhez

A Helix 02 varázslata egy háromszintű architektúrában rejlik, ahol minden szint a saját idősíkján operál. Képzeljük el úgy, mint egy vállalati ranglétrát: a vezérigazgató kijelöli a stratégiát, a gyakornok pedig ténylegesen elvégzi a munkát.

  • System 2 (A Stratéga): Ez a magas szintű gondolkodási réteg. Elemzi a látottakat és a beszédet, majd az olyan parancsokat, mint a „Pakold ki a mosogatógépet”, célkitűzések sorozatára bontja. Lassan dolgozik, a nagy egészet nézi.
  • System 1 (A Taktikus): Ez a vizuomotoros szabályozó, amely összeköti a robot összes érzékszervét – a fejkamerákat, az új tenyérkamerákat és az ujjbegyek taktilis szenzorait – az összes ízülettel. A System 2 céljait gyors, 200 Hz-es teljes tesztre kiterjedő parancsokká fordítja le.
  • System 0 (A Sportoló): Ez az alapréteg, egy több mint 1000 órányi emberi mozgásadaton tanított modell. Elképesztő, 1 kHz-es sebességgel pörög, biztosítva, hogy minden mozdulat stabil, kiegyensúlyozott és természetes legyen. A Figure nem aprózta el a villantást: közölték, hogy a System 0 egyetlen neurális hálóval váltott ki 109 504 sornyi, kézzel írt C++ kódot. Lényegében kirúgtak egy könyvtárnyi programkódot, és felvettek egy AI-t, amely emberi mozgások „binge-watchingolásával” tanult meg mozogni.
Video thumbnail

Ez a „pixelektől a teljes testig” tartó adatfolyam lehetővé teszi a robot számára, hogy 61 különböző loco-manipulációs műveletet hajtson végre a négyperces mosogatógép-balett során. Folyamatosan vált a járás, a cipelés és a lepakolás között, sőt, még a csípőjét is használja a fiók becsukásához, amikor tele van a keze.

De mit tud ez a gyakorlatban?

Bár a mosogatógépes mutatvány a show sztárja, a Figure 03 robot új hardverei – különösen a tenyérkamerák és a taktilis érzékelők – a kézügyesség egy teljesen új szintjét nyitják meg. Ezek a szenzorok adják meg a Helix 02 számára azt a visszacsatolást, ami a tisztán látásalapú rendszereknek eddig megoldhatatlan feladat volt.

A taktilis szenzorok akár háromgrammos erőt is képesek érzékelni, ami már elég finom ahhoz, hogy a robot „megérezzen” egy gémkapcsot. Ez a precizitás a finommotoros készségek új generációját teszi lehetővé.

Ügyesség a tányérokon túl

A Helix 02-t egy sor kényes feladat elé állították, hogy bizonyítsa rátermettségét:

  • Vizespalack kupakjának lecsavarása: Precíz, kétkezes koordinációt és olyan erőadagolást igényel, amivel nem roppantja össze a palackot.
  • Egyetlen tabletta kivétele a gyógyszeradagolóból: A tenyérbe épített kamerákat használja a közeli nézethez, amikor a fő fejkamerák látómezejét kitakarja valami.
  • Pontosan 5 ml folyadék adagolása fecskendővel: Olyan feladat, amely folyamatos, finom nyomást és taktilis visszacsatolást igényel.
  • Fémalkatrészek kiválogatása egy zsúfolt dobozból: Ez egy valódi feladat a Figure saját BotQ gyártóüzeméből, ami megmutatja, hogy a robot kaotikus, kiszámíthatatlan környezetben is megállja a helyét.

Analízis: Szintet léptek a hasznos humanoidok

Míg más cégek látványos atlétikai mutatványokkal hakniznak, a Figure arra a kevésbé hálás, de kritikus kihívásra koncentrál, hogy a humanoidokat a való világban is hasznossá tegye. Az ugrás az eredeti Helix-től (amely csak a felsőtestet irányította) a Helix 02 teljes testre kiterjedő autonómiájáig alig egy év alatt történt – ez hűen jelzi a terület elképesztő fejlődési ütemét.

A legfontosabb tanulság az elmozdulás a merev, kézzel kódolt viselkedésektől a tanult, alkalmazkodó rendszerek felé. Azáltal, hogy alapmodelljüket hatalmas mennyiségű emberi mozgásadaton tréningelték, a Figure egyfajta „természetes ösztönt” ültetett a gépbe arról, hogyan kell egy kétlábú formának mozognia és egyensúlyoznia. Ez lehetővé teszi a magasabb szintű AI számára, hogy csak arra koncentráljon, mit kell tennie, miközben az alsóbb szintű rendszer elintézi a hogyan-t.

Itt már nem arról van szó, hogy építenek egy robotot, amely egyetlen dolgot tökéletesen megcsinál, hanem egy olyan platformot hoznak létre, amely bármit képes megtanulni. Ahogy Brett Adcock, a Figure vezérigazgatója megjegyezte, a Helix neurális hálózatának fejlesztései a teljes flottára kiterjeszthetők, így minden robot profitál abból, amit egyetlen társa megtanult. Mivel a robot aktuátorai állítólag még csak a csúcsteljesítményük 20-25%-án pörögnek, a jelenlegi hardverben is hatalmas kiaknázatlan potenciál rejlik.

Az eredmények még koraiak, de egy fundamentális váltást jeleznek. A folyamatos, egész testet érintő autonómia megoldásával a Figure megtette a döntő lépést egy valódi, általános célú robot felé – egy olyan gép felé, amely végre tényleg hajlandó elvégezni a házimunkát, és ehhez már nincs szüksége előre megírt forgatókönyvekre.