KinetIQ vs. Helix 02: Két világrend csatája a robotikában

A humanoid robotok univerzális agyáért folyó kíméletlen versenyben egy lenyűgöző filozófiai törésvonal kezd kirajzolódni. Ma már nem csak az a kérdés, ki tudja rávenni a gépét a stabil járásra vagy egy doboz kólának a hűtőből való előbányászására. Az igazi háború az elme architektúrájáért zajlik. Az egyik oldalon ott a csodagyerek – az “end-to-end” zseni, aki megfigyelés útján tanul. A másikon pedig a kínosan precíz, többszintű bürokrata. Utóbbi táborba érkezett meg most magabiztosan a Humanoid az új AI-keretrendszerével, a KinetIQ-val, amelyet nem csupán egyetlen robot vezérlésére, hanem egy egész gépi zenekar vezénylésére terveztek.

Ez a lépés azonnal éles párharcot teremt a Figure AI-jal, amelynek Figure Helix 02: Kód helyett mesterséges agy végzi a házimunkát modellje már elkápráztatta a közönséget a folyékony, hosszú távú autonómiájával. Amíg a Figure egyetlen, egységes neurális hálózat létrehozására összpontosít, amely komplex, több lépésből álló feladatokat sajátít el, addig a Humanoid a jóval kaotikusabb, ipari léptékű flottairányítás problémáját igyekszik megoldani. Ez a virtuóz és a generálkivitelező csatája, a kimenetel pedig évtizedekre meghatározhatja, hogyan integrálódnak a robotok a mindennapjainkba.

KinetIQ: Vállalati ranglétra a kognícióban

A Humanoid KinetIQ rendszere egy úgynevezett “cross-timescale” (idősíkokon átívelő) architektúrára épül, ami magyarul egy négyszintes “parancsnoki tortát” jelent. Ez egy olyan ágens-alapú keretrendszer, amely úgy gondolkodik, mint egy nagyvállalat: minden réteg a saját sebességén és absztrakciós szintjén operál.

A piramis csúcsán a System 3 áll, a flottaszintű karmester (Agentic Fleet Orchestrator). Ez a “felsővezetés”, amely közvetlenül kapcsolódik a gyári vagy raktári szoftverekhez, és magas szintű célokat fogad be. Másodperces vagy perces idősíkon dolgozik, és a flottában lévő összes robotot – legyen az kétlábú vagy kerekes – egyszerűen egy maximális hatékonysággal bevethető erőforrásként kezeli.

Egy szinttel lejjebb találjuk a System 2-t, a robotszintű projektmenedzsert. Ez a réteg egy omni-modális nyelvi modellt használ a System 3 utasításainak értelmezésére, majd ezeket részfeladatokra bontja az adott gép számára. Képes logikusan gondolkodni a környezetről, és menet közben módosítani a tervet, ha porszem kerül a gépezetbe.

A pillanatnyi utasításokért a System 1 felel, egy Vision-Language-Action (VLA) hálózat, amely afféle csoportvezetőként működik. 5-10 Hz-es frekvencián pörögve folyamatosan adja ki a célpózokat a robot testrészei – kezek, törzs, medence – számára, hogy megvalósítsa a System 2 által felvázolt tervet.

Végül pedig ott a “fizikai melós”, a System 0. Ez a teljes testet irányító kontroller (whole-body controller), amely 50 Hz-en fut, és amit kizárólag szimulációban, nagyjából 15 000 órányi megerősítéses tanulással (reinforcement learning) képeztek ki. Egyetlen, lázas feladata van: a fentről érkező póz-célokat stabil, egyensúlyban lévő ízületi mozgásokká alakítsa, biztosítva, hogy a robot ne essen orra, miközben épp egy dobozt próbál felemelni.

Video thumbnail

Helix 02: Az end-to-end virtuóz

A másik sarokban a Figure AI Helix 02 rendszere áll, amely alapjaiban más filozófiát képvisel. A többrétegű bürokrácia helyett a Helix 02 egyetlen, egységes vizuomotoros neurális hálózat köré épül. Jelmondata: “minden szenzor be, minden aktuátor ki” – vagyis a látást, az érintést és a propriocepciót közvetlenül, egyetlen folytonos rendszerben kapcsolja össze minden egyes ízülettel.

Bár ez is hierarchikus, a szerkezete sokkal tömörebb:

  • A System 2 kezeli a magas szintű szemantikai érvelést, hasonlóan a KinetIQ felsőbb szintjeihez.
  • A System 1 az, ahol a varázslat történik. Ez egy brutális erejű irányelv (policy), amely az észlelést közvetlenül teljes testi ízületi parancsokká fordítja, elképesztő, 200 Hz-es sebességgel.
  • A System 0 a fizikai megtestesülés alapja, egy kontroller, amely garantálja a mozgás simaságát és stabilitását. Ám a KinetIQ tiszta RL-megközelítésével ellentétben a Helix System 0-ját több mint 1000 órányi emberi mozgásadaton tanították be. Így a gép már azelőtt elsajátította az emberi egyensúlyozás és koordináció finomságait, hogy az RL-lel finomhangolták volna. Ráadásul ez a réteg szédületes, 1 kHz-es (1000 Hz) frekvencián pörög.

Ez a megközelítés tette lehetővé a Figure számára, hogy bemutassa, amint robotja teljesen önállóan, négy percen keresztül pakol ki és be egy mosogatógépet – ez a hosszú távú autonómia olyan bravúrja, amely jelenleg is viszonyítási pont a szakmában.

Két agy, két világ: Filozófiai szakadék

A KinetIQ és a Helix 02 közötti különbségek nem csupán technikai jellegűek – két eltérő jövőképet képviselnek a robotika világában.

FunkcióHumanoid KinetIQFigure AI Helix 02
Elsődleges célKülönböző robotokból álló flották vezényléseHosszú távú autonómia egyetlen robotnál
Architektúra4 rétegű ágens-keretrendszer3 rétegű, egységes vizuomotoros hálózat
System 0 tanítása~15 000 óra tiszta Reinforcement Learning1000+ óra emberi mozgásadat + RL
System 0 sebessége50 Hz1000 Hz (1 kHz)
Fő erősségSkálázhatóság, megbízhatóság és változatos platformok kezelése.Folyékonyság, ügyesség és komplex, új feladatok tanulása.
AnalógiaEgy profin vezetett logisztikai vállalat.Egy magasan képzett egyéni sportoló.

A KinetIQ moduláris, rétegelt felépítése rendkívül pragmatikus. A feladatok szétválasztásával a Humanoid elméletileg képes az egyes rétegeket külön-külön fejleszteni, hibakeresni vagy akár cserélni anélkül, hogy az egész rendszert újra kellene építenie. Ez a modularitás ideális ipari környezetben, ahol a megbízhatóság és a sok gép közötti koordináció mindennél fontosabb.

A Figure end-to-end megközelítése ambiciózusabb az általános intelligencia (AGI) irányába. Az emberi adatokon alapuló tanítással egy olyan fizikai cselekvési alapmodellt akarnak létrehozni, amely természeténél fogva kecsesebb és jobban alkalmazkodik a való világ strukturálatlan káoszához. Ez a gép nem csak elvégzi a feladatot, hanem megtanul úgy mozogni, mint egy ember.

A valódi verseny: A látványos demóktól a piszkos munkáig

Végül nem a laboratóriumokban, hanem a gyárak padlóján és az otthonainkban dől el, melyik architektúra a befutó. A Humanoid arra fogad, hogy a közeli, többmilliárd dolláros üzlet a logisztikában és a gyártásban van, ahol a specializált robotflották összehangolása a kulcskérdés. A KinetIQ-t pontosan erre a világra szabták.

A Figure AI a komplex, emberközpontú feladatokra fókuszálva hosszabb távra játszik: egy valódi, általános célú robotot akar, amely egy nap bármilyen emberi környezetben elboldogul. A bemutatott elképesztő ügyesség – a gyógyszeres pirulák kezelésétől a precíz fecskendő-adagolásig – egy olyan rendszert mutat, amely a finommotoros vezérlés határait feszegeti.

A verseny elstartolt. Vajon a robotika jövőjét egy precíz mesterséges intelligencia-flottamanager vagy egy virtuóz robotzseni irányítja majd? A KinetIQ erős érv az előbbi mellett: egy olyan rendszer, amelyet nem a YouTube-videók “highlight” pillanataira, hanem a 24/7-es ipari bevetés kőkemény valóságára terveztek. További részletekért érdemes elolvasni az eredeti bejelentést a thehumanoid.ai oldalon.