Legyünk őszinték: ha a Microsoft neve kerül szóba, a legtöbbünknek a világ asztali gépeit hajtó szoftverek ugranak be, nem pedig azok a robotok, amik egy napon majd összeszerelik őket. A cég robotikai múltja finoman szólva is… hullámzó. Sokan őrzünk még egy poros emléket a memóriánk egyik távoli szegletében a 2006-os Microsoft Robotics Developer Studio-ról, ami egyfajta „Windows a robotoknak” próbálkozás volt, de végül csendben elvérzett. Nemes cél volt, de a piac akkoriban még nem állt készen a megoldásra váró problémákra.
De 2026-ot írunk, és a világ hatalmasat fordult. A Microsoft, az OpenAI-jal kötött szoros szövetségétől felturbózva, már nem csupán egy szoftveróriás, hanem egy igazi AI-behemót. Most pedig egy minden eddiginél ambiciózusabb dobásra készül a robotika területén. Ezúttal nem egy fejlesztői készletről van szó: egyetlen, univerzális „agyat” akarnak építeni – egy olyan alapmodellt a fizikai világ számára, amely a többtengelyes gyári karoktól kezdve a humanoid asszisztensekig mindent képes meghajtani. A cél az, hogy végre áthidalják a digitális intelligencia és a fizikai cselekvés közötti szakadékot – ezt nevezzük testet öltött mesterséges intelligenciának (embodied AI).
A nyelvi modellektől a „fizikai AI-ig”
A robotok évek óta elképesztően hatékonyak a strukturált környezetben. Egy autóipari összeszerelő sor maga a paradicsom számukra: minden alkatrész kiszámítható helyen van, minden feladat ismétlődő, a hiba marginális. Ám abban a pillanatban, amint kivesszük a robotot a biztonságos ketrecéből, és bedobjuk a kaotikus, kiszámíthatatlan emberi világba, az eszközből egy méregdrága papírnehezék lesz. Pontosan ezt a problémát akarja megoldani a Microsoft.
A cég nagy ötlete az úgynevezett „fizikai AI” (Physical AI), amely ugyanazokra az elvekre épül, mint amik a GPT-4-et is olyan erőssé teszik. A kezdeményezés új sztárja a Rho-alpha, a Microsoft első robotikai modellje, amely a Phi sorozatú látás-nyelvi modellekre épül. Ahogy Ashley Llorens, a Microsoft Research alelnöke fogalmazott, a cél olyan rendszerek létrehozása, amelyek „képesek észlelni, érvelni és egyre nagyobb autonómiával cselekedni az emberek mellett, még a legkevésbé strukturált környezetben is”.
Lényegében egy olyan modellt akarnak, amely nemcsak a „fogd meg a kék dobozt” utasítást érti meg, hanem tisztában van az emelés fizikájával, a józan paraszti ésszel (például, hogy ne roppantsa össze a dobozt), és képes alkalmazkodni, ha a tárgy egy kicsit elmozdult. Ez egy hatalmas ugrás a merev, előre programozott utasításoktól a rugalmas, adaptív intelligencia felé.
A VLA+ előnye: minden a tapintáson múlik
A Rho-alpha titkos összetevője az architektúrájában rejlik, amit a Microsoft Vision-Language-Action Plus (VLA+) modellként ír le. Míg a versenytársak, például a Google DeepMind korábbi modelljei elsősorban a látásra és a nyelvre (VLA) támaszkodtak, a Rho-alpha egy kritikus érzékszervet is hozzáad: a tapintást. A haptikus (tapintási) érzékelés integrálásával a modell képes megérteni a tárgyakkal való érintkezés állapotát, és olyan finom mozdulatokat is végrehajtani – mint egy kábel bedugása vagy egy tárcsa elforgatása –, amelyek csak látás alapján szinte kivitelezhetetlenek lennének.
Természetesen egy ilyen modell felépítése a robotika legnagyobb szűk keresztmetszetébe ütközik: a minőségi adatok drasztikus hiányába. Nem lehet csak úgy összevadászni az internetről több billió példát arra, hogyan fog meg egy robot egy csavarhúzót. A probléma megoldására a Microsoft gőzerővel támaszkodik a szimulációra.
„Az érvelésre és cselekvésre képes alapmodellek betanításához le kell győznünk a változatos, valós világból származó adatok hiányát” – mondja Deepu Talla, az NVIDIA robotikáért és edge AI-ért felelős alelnöke. „Az NVIDIA Isaac Sim Azure-on történő alkalmazásával, amely fizikailag pontos szintetikus adathalmazokat generál, a Microsoft Research jelentősen felgyorsítja az olyan sokoldalú modellek fejlesztését, mint a Rho-alpha.”
A szimulációban generált szintetikus adatok és a valós világból származó fizikai bemutatók kombinációja a kulcs a modellek nagyüzemi tanításához. Ha a robot elront valamit, egy emberi operátor egy 3D-s egérrel korrigálhatja, a rendszer pedig valós időben tanul a visszajelzésből.
Operációs rendszer a testet öltött intelligenciának
Ha a Microsoft sikerrel jár, annak beláthatatlan következményei lesznek. Egy általános célú robotikai modell úgy működhetne, mint a hardverek felhőalapú operációs rendszere. Ahelyett, hogy minden robotikai cég a nulláról építené fel a saját komplex AI-stackjét, licencelhetnének egy rendkívül képzett alapmodellt a Microsofttól, és koncentrálhatnának a jobb hardverek tervezésére. Ez drasztikusan lecsökkentené a piacra lépési küszöböt, és a robotikai formák és alkalmazások „kambriumi robbanását” idézhetné elő.
Ezzel a Microsoft közvetlen versenybe kerül a többi tech-óriással. Az NVIDIA a Project GR00T-tal hasonló alapmodellen dolgozik, kihasználva dominanciáját az AI-hardverek piacán és az Omniverse szimulációs platformját. A Tesla az Optimus-szal a vertikális integrációban hisz, arra fogadva, hogy a hatalmas mennyiségű valós vezetési adata előnyt jelent a fizikai világ megértésében. A Google pedig már évek óta a terület kutatási fellegvára.
A Microsoft stratégiája egyértelműen a platformépítés. Azzal, hogy a Rho-alpha modellt egy korai hozzáférési programon, később pedig a Microsoft Foundry-n keresztül elérhetővé teszi, partnereket hív meg, hogy építsenek az alapjaira. Ez az együttműködésen alapuló megközelítés, megtámogatva az Azure felhőinfrastruktúra elképesztő skálázhatóságával, a Microsoft legfőbb aduásza.
Az általános célú robot álma még messze van a realitástól. A fizika törvényei, a biztonság és a költségek jelentette kihívások monumentálisak. De most először a szoftveres háttér kezd hihetőnek tűnni. A Microsoft ambiciózus nyomulása a „fizikai AI” területén nem csak egy újabb kutatási projekt; ez egy egyértelmű jelzés, hogy a verseny a gépek következő generációját hajtó „agy” megalkotásáért gőzerővel zajlik. És ezúttal a Microsoft nagyon is komoly trónkövetelő.













