Éppen amikor azt hittük, hogy a mesterséges intelligencia világa már nem bír el több „világmodellt”, az NVIDIA előállt valamivel, aminek valódi súlya van a fizikai valóságban. Megérkezett a DreamZero, egy 14 milliárd paraméteres alapmodell, amely képes egy egyszerű szöveges utasítás alapján olyan feladatokat is végrehajtani, amikre soha nem tanították be kifejezetten. Ezt a típust „World Action Model”-nek (WAM) hívják, a lelke pedig egy különleges trükk: a modell pixelről pixelre „megálmodja” a kívánt jövőt egy videó formájában, a robot pedig ebből fejti vissza, milyen mozdulatokra van szüksége ahhoz, hogy ez a jövőkép valósággá váljon.
A legütősebb rész mégis a modell elképesztő alkalmazkodóképessége. A DreamZero képes átültetni a tudását egy teljesen új, korábban sosem látott robotra mindössze 55 bemutató folyamat (trajectory) után. Ez nagyjából 30 percnyi emberi távvezérlést jelent – ami fényévekkel hatékonyabb, mint a korábban szükséges több száz órányi betanítás. Az NVIDIA kutatásai szerint a DreamZero több mint kétszeres teljesítményt nyújt az eddigi legmodernebb Vision-Language-Action (VLA) modellekhez képest az új feladatok és környezetek kezelésében. A robotot már munka közben is megcsodálhatjuk – a cipőfűző kioldásától a kézfogásig mindennel megbirkózik – a projekt hivatalos weboldalán.
A fejlesztés két olyan felismerést is hozott, ami alapjaiban kérdőjelezi meg a robotok tanításáról alkotott eddigi elképzeléseinket. Először is: a WAM-ok esetében az adatok sokszínűsége sokkal fontosabb, mint ugyanannak a feladatnak a végtelen ismételgetése. Másodszor: a különböző robotestek közötti tudásátadás (cross-embodiment) örökös problémájára a pixel a legjobb megoldás. Úgy tűnik, a videó a robotika „univerzális fordítógépe”, ami lehetővé teszi a készségek zökkenőmentes átadását robotról robotra, sőt, emberről robotra is. A modell és a súlyok nyílt forráskóddal elérhetőek a GitHubon, így a teljes fejlesztői közösség építhet erre az új alapra.
Miért sorsfordító ez a fejlesztés?
A DreamZero alapvető paradigmaváltást jelent a robotok tanításában. Ahelyett, hogy minden egyes mozdulatot kínkeservesen beprogramoznánk – ami amúgy is reménytelen és sérülékeny stratégia –, az iparág a generalista modellek felé mozdul el, amelyek menet közben tanulnak és alkalmazkodnak. Azzal, hogy videókon keresztül sajátítják el a fizika törvényeit, a WAM-ok olyan helyzetekben is feltalálják magukat, amikkel korábban sosem találkoztak – például képesek kikötni egy cipőfűzőt akkor is, ha ez a konkrét művelet egyáltalán nem szerepelt a tréningadatok között.
Maguk a kutatók szerényen a robotika „GPT-2 korszakához” hasonlítják a jelenlegi állapotot: még nem tökéletes, és nem hozza a „GPT-3 szintű” megbízhatóságot, de hatalmas mérföldkő. Azzal, hogy a robotok képesek változatos forrásokból – akár emberi videókból is – tanulni, és percek alatt alkalmazkodni az új hardverekhez, az NVIDIA drasztikusan lecsökkenti a belépési küszöböt a komplex, való világbeli robotalkalmazások előtt. Itt már nem egy konkrét munka betanításáról van szó, hanem arról, hogy megadjuk a gépnek a képességet: bármilyen feladatot képes legyen elsajátítani.













