Videókból tanulnak focizni és bokszolni a robotok a HumanX-szel

A HKUST, az IDEA Research és a Shanghai AI Laboratory kutatói bemutatták a HumanX-et, egy olyan “full-stack” keretrendszert, amely komplex, való világbeli készségeket tanít a humanoid robotoknak – pusztán azáltal, hogy emberi mozgást bemutató videókat nézetnek velük. A rendszer segítségével a robotok megtanulnak focilabdát vezetni, bokszolni vagy éppen rakományt kezelni, méghozzá anélkül, hogy a fejlesztőknek az eddigi robotikai fejlesztéseket gúzsba kötő, unalmas és feladatspecifikus “jutalmazási programozással” (reward engineering) kellene bajlódniuk.

A titok nyitja egy kétlépcsős folyamat, amely az emberi cselekvést robotnyelvre fordítja. Elsőként az XGen nevű adatgeneráló algoritmus elemzi az egyszerű, egykamerás (monokuláris) videókat, majd ezekből fizikailag is megvalósítható interakciós adatokat gyúr, amelyeket aztán mesterségesen variál a sokszínűség érdekében. Ezután jön az XMimic, egy egységesített utánzásalapú tanulási (imitation learning) keretrendszer, amely ezen adatok segítségével tanítja be a robot irányítási stratégiáját (policy). A teljes folyamatot egy hús-vér Unitree G1 humanoidon is sikerrel tesztelték, méghozzá „zero-shot” módon – vagyis a gép a szimuláció után azonnal, külön finomhangolás nélkül boldogult a fizikai valóságban is, ami a sim-to-real technológia egyik legfontosabb mérföldköve.

A kutatási publikáció szerint ez a módszer nyolcszoros javulást mutat a korábbi próbálkozásokhoz képest a feladatok általánosításában. A bemutatott mozdulatok lenyűgözően dinamikusak: láthatunk kosárlabdás dobócseleket és folyamatos, ember-robot közötti passzolgatást is.

Miért korszakalkotó ez?

Ez egy hatalmas lépés az igazi, általános célú humanoidok megteremtése felé. A robotika legszűkebb keresztmetszete ugyanis régóta a szoftveres oldal – pontosabban az a kínkeserves folyamat, amellyel minden egyes apró készséget manuálisan kell leprogramozni. A HumanX keretrendszer egy radikális rövidítést kínál: a bolygó legnagyobb és legváltozatosabb fizikai feladatgyűjteményét – a YouTube-ot, a TikTokot és az összes többi videómegosztót – használja a robotok tanítására.

Azzal, hogy kiiktatják a bonyolult programozási igényt, drasztikusan lecsökken a belépési küszöb az új robotképességek fejlesztésénél. Ahelyett, hogy mérnökök hada kódolná le a “doboz felemelése” funkciót, a jövőben elég lehet megmutatni a gépnek egy videót egy raktári munkásról. Ez az a paradigmaváltás, ami végre segíthet a humanoid hardvereknek felnőni a sci-fi filmek által diktált elvárásokhoz.