Évtizedekig a háztartási robot ígérete csupán annyi volt: ígéret. Mára már Rosie, a robotnak kellett volna takarítania nálunk, ehelyett viszont korong alakú porszívóink vannak, amelyek rendszeresen elakadnak a fürdőszobaszőnyegeken. A tudományos-fantasztikus elképzelések és a hazai valóságunk közötti szakadék óriási, tele van kudarcot vallott startupok és túlhájpolt demók hulláival. De egy új verseny, a BEHAVIOR Challenge, amely a NeurIPS 2025-ön debütál, készen áll arra, hogy rángassa, rugdossa és üvöltesse a terepet a valós világba. Vagy legalábbis annak egy nagyon, nagyon meggyőző szimulációjába.
A kihívás céljában egyszerű, kivitelezésében azonban brutális: vegyük rá a robotot, hogy tényleg elvégezze a házimunkát. Nem csupán egy kocka felemeléséről van szó, hanem összetett, több lépésből álló tevékenységek elvégzéséről, amelyeket az emberek unalmasnak találnak. A BEHAVIOR, ami a Benchmark for Everyday Household Activities in Virtual, Interactive, and Realistic environments rövidítése, nem csupán egy újabb robotikai mérce; ez egy vérbeli háztartási próbatétel, amit arra terveztek, hogy megtörje a mai, legmodernebb AI-t. És őszintén szólva, már épp ideje volt, hogy valaki megtegye.
Üdv a kísérteties völgy háztartásában
A BEHAVIOR Challenge középpontjában egy mélységesen kifinomult szimulációs környezet áll, ami a legtöbb robotikai homokozót egy gyerek játszóterévé varázsolja. Ez nem egy steril labor; ez egy nagy hűségű, fizikai alapú világ, ahol a dolgok elszabadulnak. A mérce három pillérre épül:
- 1000 mindennapi feladat: Felejtsd el a kockák tornyozását. Itt olyan feladatokról beszélünk, mint az „Ajándékkosarak összeállítása”, a „Tányérok és étel eltakarítása”, és az egzisztenciálisan borzalmas „Halloween dekorációk elpakolása”. Minden feladatot formálisan definiáltak a BEHAVIOR Domain Definition Language (BDDL) nyelven, amely meghatározza a kezdeti állapotot és a siker pontos feltételeit.
- 50 interaktív környezet: Ezek nem csupán statikus szobák, hanem teljesen interaktív, házméretű elrendezések, mintegy 10 000 manipulálható tárggyal benépesítve. Egy hűtő kinyitható, egy paradicsom felszeletelhető, és egy ruha, nos, deformálható.
- Az OmniGibson szimulátor: NVIDIA Omniverse platformjára épülve itt történik a varázslat (és a fizika). Az OmniGibson nemcsak a merevtest-fizikát támogatja, hanem olyan fejlett jelenségeket is, mint a deformálható tárgyak, folyadékinterakciók és összetett állapotváltozások, mint a fűtés, hűtés és vágás. Ez az, ami megkülönbözteti elődeitől, lehetővé téve egy olyan szintű realizmust, ami kulcsfontosságú az olyan robotok képzéséhez, amelyek egy nap majd egy igazi konyhában találhatják magukat.
Ez nem csupán a manipuláció vagy a navigáció elszigetelt tesztje. A BEHAVIOR az első ilyen jellegű benchmark, amely megköveteli a robottól, hogy egyszerre végezzen magas szintű érvelést, nagy távolságú navigációt és ügyes kétkezes manipulációt. A sikerhez egy AI nem lehet csupán egy dologban jó; gondolkodnia kell, mint egy (nagyon türelmes) embernek.
A NeurIPS 2025 próbatétele
A NeurIPS 2025-ön való első bemutatkozásán a kihívás 50 ilyen teljes hosszúságú feladatot szabadít rá a globális kutatói közösségre. A versenyzőknek egy virtuális robotot kell programozniuk, hogy olyan forgatókönyveket oldjon meg, amelyek több percet is igénybe vehetnek, több szobát érintenek, és tucatnyi részcélt foglalnak magukban. Gondoljunk olyanokra, mint a „Pizza készítése” vagy a „Kutyajátékok mosása” – olyan feladatok, amelyek tervezést, memóriát és rengeteg digitális könyökerőt igényelnek.
A szimulációs próbatétel alapértelmezett robotja a Galaxea R1 Pro, egy kerekes humanoid, két 7-DOF karral, egy 4-DOF törzzsel és egy érzékelőcsomaggal. Ez nem valami ügyetlen bádogdoboz; a tervezését kifejezetten az olyan elérési távolság, stabilitás és kétkezes koordináció miatt választották, amelyek elengedhetetlenek a háztartási tevékenységekhez.
Hogy a résztvevőknek ne kelljen az AI-jukat a kezdeti tudatlanságból felépíteniük, a szervezők egy hatalmas adathalmazt biztosítanak: 10 000 szakértői demonstrációt, összesen több mint 1200 órányi aprólékosan rögzített adatot. Ez nem remegő, amatőr felvétel. Ez tiszta, közel optimális adat, amelyet a Simovation szállító gyűjtött a JoyLo teleoperációs rendszerrel. A JoyLo, egy okos beállítás, amely kézi vezérlőket használ kinematikai ikerkarokon, lehetővé teszi az emberi operátorok számára, hogy zökkenőmentesen vezessék a robotot a feladatokon keresztül, tökéletes sablont biztosítva az imitációs tanuláshoz.
Miért olyan pokolian nehéz ez?
A „hosszú távú” kifejezést gyakran dobálják az AI világában, de a BEHAVIOR most fogat ad neki. Egy olyan feladat, mint a „Könyvek bedobozolása tárolásra”, megkövetelheti a robottól, hogy navigáljon a nappaliba, azonosítsa a megfelelő könyveket, találjon egy dobozt a garázsban, hozza vissza, majd sorban helyezze bele az egyes könyveket. Ez a tervezést és a memóriát teszteli hosszabb időszakokon keresztül, olyan módon, ahogy kevés benchmark tette eddig.
Továbbá, a tárgyakkal való interakciók puszta sokfélesége megdöbbentő. A robotoknak meg kell érteniük és végre kell hajtaniuk olyan készségeket, amelyek messze túlmutatnak a megragadáson. Folyadékot kell önteniük, felületeket kell törölniük, zöldségeket kell vágniuk, és kapcsolókat kell bekapcsolniuk. A tárgyakat ki lehet nyitni, be lehet zárni, melegíteni, fagyasztani, tisztítani, vagy akár felgyújtani. Ez a gazdag készségkészlet – legalább 30 különböző primitív – arra kényszeríti a kutatókat, hogy túllépjenek az egyfeladatos modelleken, és általánosabb, alkalmazkodóbb intelligencia felé mozduljanak el.
Hogy a kihívás hozzáférhető legyen, a szervezők több alapmodellt is biztosítanak, beleértve az olyan sztenderdeket, mint az ACT és a Diffusion Policy, valamint előre betanított modelleket, mint az OpenVLA. Az egész keretrendszer nyílt forráskódú, kezdőcsomagokkal és oktatóanyagokkal kiegészítve, hogy csökkentse a belépési küszöböt.
Hogyan ítéljünk meg egy robotkomornyikot?
A BEHAVIOR Challenge-ben a sikert elsősorban a feladat sikeres végrehajtási aránya méri. A rendszer a BDDL definíciókat használja annak ellenőrzésére, hogy a robot teljesítette-e az összes célfeltételt. Részleges pontszámot is adnak, ösztönözve azokat a megoldásokat, amelyek jelentős előrelépést mutatnak, még akkor is, ha nem érik el a tökéletességet.
Másodlagos mérőszámokat is követni fognak, hogy elválasszák az okosat az ügyetlentől:
- Hatékonyság: Mérik az eltelt időt, a megtett távolságot és az ízületek teljes mozgását. Az elegáns megoldás egy gyors megoldás.
- Adatfelhasználás: A szervezők rögzítik, hogy az 1200 órányi demonstrációs adatból mennyit használtak fel az egyes beadott megoldások képzéséhez, betekintést nyújtva az adathatékonyságba.
A verseny hivatalosan 2025. szeptember 2-án indult, a végső beadási határidő november 16. A nyertesek, akiket a decemberi San Diegó-i NeurIPS konferencián hirdetnek ki, pénzdíjat kapnak – egy szerény 1000 dollárt az első helyezettnek –, de az igazi díj a dicsekvési jog és a lehetőség, hogy érdemben előremozdítsák a megtestesült AI területét.
Végső soron a BEHAVIOR Challenge több mint egy verseny; ez egy valóságellenőrzés az egész robotikai ipar számára. Ez egy aprólékosan megtervezett olvasztótégely annak tesztelésére, hogy algoritmusaink készen állnak-e arra, hogy elhagyják a labort, és belépjenek az emberi otthon kaotikus, kiszámíthatatlan és gyakran ragacsos környezetébe. A NeurIPS 2025 eredményei nemcsak azt mutatják meg, kinek van a legjobb modellje; azt is megmutatják, mennyi utat kell még megtennünk, mielőtt robotsegítőink készen állnak a mosogatásra.






