99%-os siker: Itt a Generalist GEN-1, a szupergyors robotagy

Őszintén szólva, a legtöbb robotbemutató nem más, mint a csalódás gondosan megkoreografált balettje: lassú, esetlen mozdulatok sorozata, amiket nézve az emberben felmerül, hogy előbb jön el a világegyetem hőhalála, mint hogy a gép végezzen a feladatával. Időnként azonban érkezik valami, ami képes áttörni ezt a zajt. Ma ez a valami a Generalist új AI-modellje, a GEN-1. A cég nem kispályázik az ígéretekkel: egy olyan általános célú „robotagyat” alkottak, amely nemcsak működik, de egyenesen brillírozik.

A Generalist állítása szerint a GEN-1 az első olyan modell, amely valóban „mesteri szinten” űzi az egyszerű fizikai feladatokat, és a bizonyítékokat is letették az asztalra. 99%-os átlagos sikerrátáról beszélünk olyan műveleteknél, ahol az előd, a GEN-0 még csak egy gyenge B-mínuszt, azaz 64%-ot tudott felmutatni. Ráadásul a feladatokat háromszor gyorsabban hajtja végre, mint a korábbi csúcsmodellek, és ami a legfontosabb: egy-egy új kunsztot mindössze egyórányi robotspecifikus adatból képes megtanulni. Ez nem csupán egy apró frissítés; ez egy komoly fázisváltás a végre valóban kereskedelmi forgalomba hozható robotok irányába.

A skálázási törvényektől a fizikai tökélyig

Alig öt hónapja a Generalist bemutatta a GEN-0-t, amely elsőként szolgáltatott valódi bizonyítékot arra, hogy a GPT-szerű nagy nyelvi modellek (LLM) felemelkedését segítő skálázási törvények a robotikában is működnek. Több adat és nagyobb számítási kapacitás kiszámíthatóan jobb, általánosabb teljesítményt eredményezett. Ez tudományosan fontos mérföldkő volt, de a GEN-0 még nem állt készen a való világra.

A GEN-1 viszont már úgy született, hogy ezeket a potmétereket csutkára tekerték. Egy jóval nagyobb adathalmazon edződött – immár több mint félmillió órányi, nagy felbontású fizikai interakciós adatról beszélünk –, amit új algoritmikus fejlesztésekkel gyorsítottak fel. A titkos összetevő azonban maga az adatforrás. Ahelyett, hogy kizárólag a drága és nehezen skálázható teleoperációs (távirányított) adatokra támaszkodnának, a GEN-1 alapjait emberek által viselt, olcsó hordható eszközökből nyert adatok adják. Ez a módszer olyan gazdag előképzési korpuszt biztosít a való világ fizikájáról és az intuitív mikro-korrekciókról, amit a szimulációk vagy a távirányítás gyakran képtelenek leképezni.

„Hisszük, hogy a GEN-1 az első olyan általános fizikai AI-modell, amely átlépte a kritikus küszöböt: megnyitotta az utat a kereskedelmi alkalmazhatóság előtt a feladatok széles skáláján” – áll a cég közleményében.

Egy robotkar aprólékos pontossággal csomagol be egy okostelefont a dobozába, demonstrálva a nagy sebességű precizitást.

A szent hármas: Megbízhatóság, sebesség és improvizáció

A Generalist a „mesteri szintet” három kulcsfontosságú képesség kombinációjaként határozza meg. Ezek közül kettő már 60 éve az ipari automatizálás alapköve, de a harmadik az, ami fenekestül felforgatja a játékot.

Megbízhatóság és sebesség: Az ipari alapelv, felturbózva

Kezdjük ott, hogy a számok önmagukért beszélnek. A hosszú távú tesztek során a GEN-1 egymás után több mint 1800-szor pakolt be blokkokat, több mint 200-szor hajtogatott dobozt, és még egy robotporszívót is szervizelt zsinórban 200-szor – egy robot, ami egy másik robotot tart karban: ez vagy egy technológiai utópia, vagy egy nagyon specifikus horrorfilm kezdete. Ezek a feladatok órákon át futottak emberi beavatkozás nélkül, 99%-os sikerrel.

Aztán ott a sebesség. A GEN-1 által vezérelt robotok 12,1 másodperc alatt raknak össze egy dobozt, ami az elődnek még 34 másodpercig tartott. Egy telefont 15,5 másodperc alatt csomagolnak tokba, ami 2,8-szor gyorsabb, mint korábban. Itt nem csak arról van szó, hogy feltekerték a motorok fordulatszámát; a modell tanul a tapasztalatokból, és fejlett következtetési (inference) technikákat alkalmaz, hogy hatékonyabban végezze el a feladatot, mint az őt tanító emberi demonstrátorok.

Video thumbnail

Improvizáció: Az intelligencia szikrája

A megbízhatóság és a sebesség alapkövetelmény egy gyári padlóhoz rögzített ipari karnál. Ami viszont belőlük hiányzik, az a képesség arra, hogy kezeljék a káoszt – azt, amikor a valóság nem tartja magát a forgatókönyvhöz. Itt jön képbe a GEN-1 „improvizatív intelligenciája”.

A Generalist ezt egyfajta „freestyle problémamegoldásként” írja le. Az egyik demóban egy autóalkatrészeket válogató robot véletlenül meglök egy alátétet. Ahelyett, hogy lefagyna vagy hibaüzenetet dobna, a GEN-1 alapú rendszer felméri a helyzetet és alkalmazkodik. Lehet, hogy leteszi az alátétet, hogy újra, tisztábban fogja meg, vagy ügyesen kihasználja egy nyílás szélét a darab visszaforgatásához, esetleg beveti a másik kezét egy kétkezes segítséghez. Ezek nem előre beprogramozott hibajavító rutinok; ezek a pillanat hevében született, újszerű megoldások, amik messze túlmutatnak a tréningadatokon. Ez a különbség az automatizáció és az autonómia között.

Több, mint egy modell: Ez egy rendszer

Fontos megérteni, hogy a GEN-1 nem csupán egy adathalmaz vagy egy algoritmus. Ez egy komplett rendszer, amely magában foglalja az előképzés, az utólagos finomhangolás és a futásidejű feldolgozás innovációit. Ez a rendszerszintű megközelítés teszi lehetővé azt a rendkívüli adathatékonyságot, amivel a gép képes egyszerre alkalmazkodni egy új robottesthez és egy új feladathoz, mindössze egyetlen órányi friss adat alapján.

Egy robotkar szervizel egy robotporszívót, bemutatva a két gép közötti komplex interakciót.

Természetesen a GEN-1 sem a fizikai AGI (általános mesterséges intelligencia) Szent Grálja. A cég őszintén beszél a korlátokról is: nem minden feladat éri el a 99% feletti sikerrátát, és egyes ipari alkalmazások még ennél is nagyobb megbízhatóságot követelnek. Emellett az improvizációs képesség felveti az AI-igazítás (alignment) kritikus kérdését is. Egy robot, amely kreatívan old meg egy problémát, fantasztikus dolog – egészen addig, amíg a kreatív megoldás nem az, hogy a hatékonyság jegyében átüti a falat.

Egy pár robotkar összehangoltan dolgozik egy póló összehajtogatásán, ami a finommanipuláció egyik klasszikus kihívása.

Mégis, a GEN-1 debütálása mérföldkőnek tűnik. Azt az érvet erősíti, hogy a modellek hatalmas mennyiségű, valós fizikai interakciós adattal való skálázása a legígéretesebb út az általános célú robotok felé. Azzal, hogy a teljesítmény szentháromságára – a precizitásra, a sebességre és a váratlan helyzetek kezelésére – fókuszált, a Generalist talán épp most rángatta át a hasznos, mindentudó robot álmát a sci-fiből a kézzelfogható valóságba. Számunkra ez több, mint egy újabb modell: ez annak a jele, hogy a fizikai világunk végre elkezdett egy fokkal intelligensebbé válni.