- Hirdetés -

Nézve tanuló robotokat fejleszt a Google

2022. máj. 8.

Képünk illusztráció! Fotó: David Vogt, Arizonai Állami Egyetem / TU Freiburg

Ha valaki azt mondaná, hogy „keresztmegvalósítású inverz megerősítő tanulás”, talán hanyatt-homlok menekülnél előle, mielőtt elkezdené megmagyarázni, pedig az XIRL technológia az egyik legforróbb technológiai lehetőség. Erre jött rá a Google, ráadásul nagyon egyszerű igazság nyomán: az ember is úgy tanul, hogy megfigyel – nem pedig úgy, hogy mások irányítják a mozdulatait, egészen addig, amíg el nem kezdi azokat magától ismételgetni.

Bár az utánzás valóban hatékonynak bizonyult a robotok tanítására, szinte csak laboratóriumi körülmények között, speciálisan képzett szakemberek által kivitelezhető. A Google szeretné átlépni ezeket a határokat, így új metódusokat kezdett el kidolgozni a gépek oktatására. A megfigyelést persze könnyebb kimondani, mint egy gépet rávenni – állapítja meg a The Robot Report, és az sem elhanyagolható szempont, hogy hiába nézi, amit egy ember csinál, ha egyszer nem úgy néz ki, következésképp nem is képes ugyanúgy végrehajtani a feladatokat, mint egy ember. Éppen ezért kell a végeredményre és nem az elérés mikéntjére koncentrálni.

Az XIRL megoldás lényege az, hogy a robot csupán videókat nézve megfigyelje a feladat végrehajtását, majd a cselekvés alapján találja ki, hogy milyen végeredmény következik belőle, amit már a maga lehetőségei szerint is képes kivitelezni. Az információkat jutalomfüggvény szerint összegzi, tehát ahelyett, hogy megpróbálná legyőzni a fizikai különbségeket, a végkövetkeztetés dinamikájára koncentrál. A jutalom értelmezése során már ismerős gyakorlat veszi kezdetét: a próbálkozás-hibázás folyamatán keresztül elkezdi kizárni azokat a megoldásokat (pl. egy tárgy mozgatása során), amivel nem lehet elérni a kívánt célt.

- Hirdetés -

A Google tudósai a kísérletezés közben rájöttek, hogy a robotok annál többet tanulnak, minél változatosabb videókat mutatnak nekik, és a mintamegerősítő tanulás 2-4-szer hatékonyabbnak bizonyult, mint a hagyományos metódusok esetében. A megoldásaikat egyébként bárki szerkesztheti-fejlesztheti, hiszen a cég nyílt forráskódú implementációt, az ún. X-MAGICAL-t szimulálta, egységes tesztkörnyezetből.

Ez utóbbiban egy virtuális Sawyer-kart már kiképeztek egyszerűbb feladatokra, például arra, hogy egy korongot az adott célzónába juttasson.

Gábor János, NEW technology

- Hirdetés -