Az AGIBOT 2B világmodellje listavezető, a fizika győzött

Dávid és Góliát klasszikus küzdelme elevenedik meg a szemünk előtt, csak éppen parittyák helyett GPU-kkal: az AGIBOT viszonylag aprócska, mindössze 2 milliárd paraméteres világmodellje könyökölte be magát a WorldArena benchmark élére. A Genie Envisioner-Sim 2.0 (GE-Sim 2.0) névre keresztelt modell most a rangsor legtetejéről néz le azokra a behemót videógenerátorokra, amik eddig kisajátították a reflektorfényt. Úgy tűnik, egy dolog látványos videókat gyártani, és egy teljesen másik megtanítani egy robotot arra, hogy ne szerencsétlenkedjen el egy egyszerű törölköző összehajtogatását.

Itt nem a következő virális macskás videó generálása a cél. A GE-Sim 2.0 egy zárt láncú fizikai szimulátor, amit arra terveztek, hogy digitális kiképzőtáborként szolgáljon a valódi robotok számára. A rendszer „High-Consistency Multi-View Generation” technológiát használ, ami garantálja, hogy amit a robot fejkamerája lát, az tűpontosan összhangban legyen a csuklókamerák képével – még akkor is, ha az adott tárgy épp takarásban van, vagy egy tükörben verődik vissza. Ez az a fajta megszállott figyelem a részletekre, ami elválasztja a hasznos szimulációt a digitális lázálomtól.

Hogy a dolog a gyakorlatban is működjön, az AGIBOT három komoly szűk keresztmetszetet iktatott ki. Elsőként bevetettek egy „Proprioceptív állapot-szakértőt” (Proprioceptive State Expert), amely közvetlenül a videóból dekódolja a fizikai ízületi szögeket, így a robot folyamatos visszacsatolást kap, hogy elkerülje a mechanikai káoszt. Másodszor, egy „VLM-alapú világ-bíró” (VLM-Based World Judge) tevékenykedik automatizált játékvezetőként, aki fáradhatatlanul pontozza a szimulációs köröket, megkímélve ettől a hús-vér mérnököket. Végül egy speciális disztillációs keretrendszerrel (distribution-matching distillation) úgy lefaragták az inferenciaidőt, hogy egy komplex, 25 képkockás, többnézetű jelenet legenerálása mindössze 2,3 másodpercet vesz igénybe.

Miért akkora szám ez?

Mert a való világban is működik. Azok a fizikai robotok, amiket a GE-Sim 2.0 szűrt szintetikus adataival tanítottak, masszív, 15%-os javulást mutattak a sikeres végrehajtásban a komplex, érintésigényes feladatok során. Ez hatalmas lépés az embodied AI (testet öltött mesterséges intelligencia) legnagyobb rákfenéjének, az adathiánynak a leküzdésében. Míg más modellek a vizuális csillogásra hajtanak, az AGIBOT olyan akcióorientált fizikai szimulátorokat épít, amik okosabbá és gyorsabbá teszik a robotokat. A „csak látványos” kora lejárt; megérkeztünk a valódi funkcionalitás korszakába.

A projekt nyílt forráskódú, így bárki fejest ugorhat a technikai részletekbe. Itt találod a forrásokat: Nézd meg a kódot GitHubon vagy olvasd el a teljes tanulmányt az arXiv-en.