A nagyszabású, sokszor botladozó maratonon az általános célú robotok felé vezető úton az iparág újra és újra ugyanabba a kényelmetlen akadályba botlott: az adatokba. Míg a nyelvi modellek szinte az egész internetet felfalták maguknak – egy valóságos all-you-can-eat szöveg-svédasztalról lakmározhattak –, addig a robotika a teleoperáció lassú, drága és fájdalmasan korlátozott diétájával, kézzel etette kreálmányait. De most, egy Skild AI nevű startup úgy döntött, abbahagyja a kanállal etetést, és inkább megmutatja a menüt a robotjainak. A legfrissebb bizonyíték? Egy robotkar, ami emberi videót nézve, önállóan tanulva képes összedobni egy tányér rántottát.
Ez nem csak egy egyszerű mutatvány. Ez egy közvetlen, frontális támadás az ellen, ami a fizikai AI központi problémájává vált: az adat-szűk keresztmetszet. A robotok képzésének uralkodó módszere az, hogy emberi operátorok távolról “bábként irányítanak” egy gépet, hogy összegyűjtsék a feladathoz szükséges precíz motorvezérlési adatokat. Ahogy a Skild AI rámutat, ez a stratégia két végzetes hibával terhelt: hiányzik belőle a sokféleség, mivel a legtöbb adat steril laboratóriumi környezetben gyűlik össze, és matematikailag lehetetlen akkora szintre skálázni, ami egy igazi alapmodellhez szükséges lenne. Egyszerűen nem tudsz elég embert felvenni, hogy a nap 24 órájában robotokat vezessen, és ezzel generálja a szükséges trilliónyi adatpontot.
A YouTube-tól a robotig: az új adatvezeték
Ahelyett, hogy egy nagyobb adatfarm építésével próbálkozna, a Skild AI rákapcsolódik egy már létezőre: az internetre. A vállalat kulcsfontosságú felismerése az, hogy az emberek már létrehoztak egy “internetskálájú” adathalmazt a robotika számára YouTube oktatóanyagok, TikTok trükkök és számtalan más oktatóvideó formájában. A megoldás, ami a szemünk előtt rejtőzik, a megfigyelésen alapuló tanulás – ugyanúgy, ahogy az emberek is tanulnak. Nem folyadékdinamikai számításokkal tanulunk meg italt tölteni; megnézzük, ahogy valaki más csinálja, és az agyunk kitalálja a többit.
A Skild AI ugyanezt tanítja modelljeinek. Azáltal, hogy videókat néz, amint emberek feladatokat hajtanak végre, az AI megtanulja a szándékot és a cselekvési sorrendet, hatékonyan lefordítva egy vizuális demonstrációt robotparancsokká.

Persze, ez nem ennyire egyszerű. Gordon Ramsay-t nézni, amint marhahúst készít Wellington módra, és Michelin-csillagos ételt várni tőle, tiszta fantázia. Az elsődleges technikai kihívás az, amit az iparág “Megtestesülési résnek” (Embodiment Gap) nevez. Egy emberi kéznek 27 szabadsági foka van; egy kétujjas megfogónak nincs. Egy emberi séf folyékony mozdulatainak leképezése egy több tengelyes robotkar merev ízületeire óriási fordítási probléma.
Omni-testű tanulás és a Skild Brain
Itt rejlik a Skild AI állítólagos titkos receptje. A vállalat kifejlesztett egy “omni-testű” alapmodellt, amit a Skild Brain névre keresztelt. Ezt az AI-t hardverfüggetlenre tervezték, képes különféle robotformákat irányítani – a kerekes humanoidoktól a fix karokig – anélkül, hogy túlságosan specializálódna bármelyikre. A modell emberi videók és fizika alapú szimulációk masszív adagján előképzett, lehetővé téve számára, hogy általánosított megértést építsen ki arról, hogyan kell manipulálni a tárgyakat.
“A tapasztalatokon alapuló tanulás, nem pedig az előzetes programozás, az a lépésváltás, ami a robotikában bekövetkezett” – nyilatkozta a cég, kiemelve az NVIDIA szimulációs és AI infrastruktúrájának használatát, amivel “egy évezrednyi tapasztalatot szereztek napok alatt.”
Ez a megközelítés lehetővé teszi, hogy a robot kevesebb mint egy órányi robotspecifikus adattal, videóból tanuljon meg egy új készséget, finomhangoláshoz. Az eredmény egy olyan rendszer, amely képes általánosítani különböző feladatok és környezetek között, ahogy az a demóikban látható, ahol robotok mosogatógépet pakolnak, növényeket öntöznek és függönyöket húznak el.

A robotforradalomra gyakorolt hatások
Ha a Skild AI megközelítése olyan skálázhatónak és hatékonynak bizonyul, mint amilyennek állítja, a következmények óriásiak. Alapjaiban változtatja meg a robotképzés gazdaságosságát. A hatalmas, drága teleoperációs farmok iránti igényt felválthatják olyan erőteljes modellek, amelyek az emberi tevékenységek egyre bővülő, nyilvánosan hozzáférhető könyvtárából tanulnak. Ez drámaian felgyorsíthatja a robotok bevezetését olyan strukturálatlan környezetekben, mint az otthonok, éttermek és építkezések – olyan helyeken, ahol az automatizálás hagyományosan küszködött.
Az iparág felfigyelt. A humanoid és általános célú robotok terén versenytársak mind a saját, nagy tétekkel járó fogadásaikat teszik meg az adatprobléma megoldására, legyen szó teleoperációról, szimulációról vagy emberi videóról.
Egyelőre a Skild AI lenyűgöző, és őszintén szólva, ínycsiklandó demonstrációt mutatott be. Míg a világ többi része azon fáradozik, hogy tartalmat gyártson az embereknek, addig a Skild csendben tantervvé alakítja ezt a tartalmat jövőbeli robotasszisztenseink számára. Az öntanuló robotchef kora közelebb lehet, mint gondolnánk.






