Sunday AI: Robotoknak Kézi Chore-tanítás

A modern robotika piszkos titka, hogy a legmeggyőzőbb demók valójában csak high-tech bábelőadások. Emberi operátorok hada, bonyolult és drága távvezérlő berendezésekbe szíjazva, távolról irányítja a robot minden mozdulatát, hogy előállítsák azokat az adatokat, amelyek ahhoz kellenek, hogy bármi hasznosra megtanítsák. Ez egy lassú, költséges és őszintén szólva, skálázhatatlan folyamat. A Stanford egyetemről lemorzsolódott Tony Zhao és Cheng Chi, a Sunday AI alapítói, ránéztek erre a „skálázhatósági patthelyzetre”, és úgy döntöttek, elegánsan átugorják az egészet.

A megoldásuk, amely az új, ACT-1 nevű alapmodellt hajtja, megtévesztően egyszerű: ha azt akarod, hogy egy robot megtanuljon egy feladatot, egyszerűen csináld meg te magad. Egy 20 000 dolláros távvezérlő berendezés helyett a Sunday mérnökei egy 200 dolláros „Képesség Rögzítő Kesztyűt” használnak. Ez a kesztyű, amelyet úgy terveztek, hogy illeszkedjen a Memo robot kezének geometriájához és szenzoraihoz, az emberi mozgás finom, érintésben gazdag adatait rögzíti. Az alaptézis merész: ha egy ember meg tudja csinálni a kesztyűt viselve, akkor a robot is megtanulja, bábozás nélkül.

Az adatkorlát és a kesztyűmegoldás

A Sunday alapvető meggyőződése, hogy a robotikát nem a hardver, a számítási kapacitás vagy a finanszírozás fogja vissza, hanem egyetlen, meghatározó korlát: az adatok. Míg a nagy nyelvi modellek az egész internetet képesek voltak bekebelezni, a robotika nem rendelkezik ilyen valós interakciós adatkorpusszal. Az olyan cégek, mint a Tesla, autók millióit használhatják adatgyűjtésre, de a robotikai startupoknak nincs ilyen luxusuk. A távvezérlés volt az iparág válasza, de ez egy nyers erőre épülő megközelítés, amely tőkeigényes és lassú is.

A Sunday AI Képesség Rögzítő Kesztyűje, amely a Memo robot kezét tükrözi.

A Képesség Rögzítő Kesztyű a Sunday elegáns kerülőútja e probléma megkerülésére. Az adatgyűjtés decentralizálásával bárki, bárhol hozzájárulhat a képzési adathalmazhoz anélkül, hogy fizikai robotra lenne szükség. Ez két kulcsfontosságú előnnyel jár:

  • Tőkehatékonyság: A Sunday állítása szerint a kesztyű két nagyságrenddel olcsóbb, mint egy standard távvezérlő rendszer, drámaian csökkentve az adatgyűjtés költségeit.
  • Adatminőség: Az olyan feladatoknál, amelyek az érzékelésre támaszkodnak – mint például annak meghatározása, mennyi erő kell egy zokni összehajtásához, vagy egy borospohár behelyezéséhez a mosogatógépbe –, a kesztyű olyan természetes erővisszacsatolást biztosít, amelyet a távoli távvezérlés egyszerűen nem tud reprodukálni.

Ez a megközelítés lehetővé teszi a Sunday számára, hogy több száz rendetlen, valós otthonból gyűjtsön adatokat, létrehozva egy adathalmazt, amely tükrözi az „élet hosszú farkát”, ahogy ők fogalmaznak – macskákkal a mosogatógépben és minden egyébvel együtt.

Az étkezőasztaltól a mosogatógépig

Hogy bizonyítsa az ACT-1 rátermettségét, a Sunday bemutatta azt, amit „a valaha volt legösszetettebb, robot által önállóan végrehajtott feladatnak” neveznek: egy étkezőasztal lepakolását és egy mosogatógép bepakolását. Ez nem csak pakolás és elhelyezés. A feladat 33 egyedi és összesen 68 ügyes interakciót foglal magában 21 különböző tárggyal – az érzékeny, átlátszó borospoharakról a kerámia tányérokig és fém evőeszközökig.

A hosszú távú feladat során a Memo robot több mint 40 métert navigál (130 láb), kiüríti az ételmaradékokat, sőt, még a mosogatógépet is kezeli. Ez a finom manipuláció és a helyiségméretű navigáció szimfóniája, amelyet egyetlen végpontok közötti modell vezérel. Az alapító Tony Zhao elismeri, hogy a fejlesztés során rengeteg poharat törtek össze, de több mint 20 élő demó során egyetlen törés sem történt, ami a modell megtanult érzékenységének bizonyítéka.

Zéró-shot általánosítás a vadonban

Egy robot, amely csak a saját laborjában működik, csupán tudományos projekt. Hogy bizonyítsa az ACT-1 alkalmazkodóképességét, a csapat hat ismeretlen Airbnb lakásban vetette be a Memo-t. A cél: az asztal lepakolása és a mosogatógép bepakolása nulla, környezetspecifikus betanítás nélkül.

A Sunday AI Memo robotja feladatokat hajt végre valós otthoni környezetben.

A modell 3D térképekkel való kondicionálásával a képzés során az ACT-1 megtanulja értelmezni az új elrendezéseket, ahelyett, hogy specifikusakat memorizálna. Amikor egy új házba „ejtik”, a mellékelt térképet használja a kulcsfontosságú helyekre való navigáláshoz, ami létfontosságú képességet mutat be minden olyan robot számára, amelyet egy igazi otthon káoszára szántak. Eddig az ACT-1 az első alapmodell, amely egyesíti a hosszú távú manipuláció ezen szintjét a térkép-kondicionált navigációval.

Az ügyesség határainak feszegetése

A maratoni mosogatógép-feladaton túl a Sunday az ACT-1 ügyességét is megmutatja két hírhedten nehéz kihívással: zoknihajtogatással és eszpresszó készítéssel. Míg más robotok nagy, kiszámítható tárgyakat hajtogattak, a zoknik a deformálhatóság és az önmaguk eltakarásának rémálmai. Az ACT-1 sikeresen azonosítja a párokat egy rendetlen kupacból, többujjas mozdulatokkal gombóccá gyúrja őket, és egy kosárba helyezi.

Egy eszpresszógép működtetése eközben a milliméteres pontosság és a nyers erő kombinációját mutatja be. A robot levegőben tömörít, behelyezi a portafiltert, és előállítja a rögzítéshez szükséges nagy nyomatékot, mielőtt megnyomja a gombot. Ezek nem csupán látványos demók; gondosan kiválasztott bizonyítékai a magas minőségű, árnyalt adatoknak, amelyeket a Képesség Rögzítő Kesztyű képes szolgáltatni.

A Sunday megközelítése merész fogadás. Azzal, hogy mindent egy újszerű adatgyűjtési módszerre tett fel, megkerülte az iparág legnagyobb szűk keresztmetszetét, és egy megdöbbentő képességekkel rendelkező modellt hozott létre. A kerekes Memo robotnak talán nincs meg a kétlábú humanoidok sci-fi vonzereje, de gyakorlati intelligenciája tagadhatatlan. A Sunday csendesen ledobta a kesztyűt, azt sugallva, hogy a robotika jövőjét talán nem bábművészek építik, hanem egyszerűen megmutatják a robotnak, hogyan kell csinálni.