Képzeljük el, hogy a jövőben a mesterséges intelligencia valós időben generál játszható videójátékokat, nézhető filmeket vagy sorozatokat. Nekünk csak meg kell mondanunk, mit szeretnénk nézni, és azonnal el is készült. Emellett interaktív virtuális környezetekben is képes lesz fejlődni, tanulni, összetett feladatokat megoldani.
A vezető technológiai vállalatok évek óta versengenek, hogy kinek a mesterséges intelligenciája képes jobb minőségű szövegek, képek vagy akár videók létrehozására, mára pedig elértük azt a pontot, ahol az MI már egyszerű utasítások alapján komplett videójátékokat is megalkot. Ez egy kicsit olyan, mint egy futurisztikus álom, de a Google DeepMind által fejlesztett Genie 2-vel ez a valóság. Ez a forradalmi eszköz képes arra, hogy egyetlen képi utasításból 3D-környezeteket hozzon létre irányítható karakterekkel, melyeket emberek és az MI egyaránt irányíthatnak. Tudom, sokan feleslegesnek tartják az ilyesmit, viszont a játékok fejlesztése kulcsfontosságú a mesterséges intelligencia kutatásában. Amellett, hogy szórakoztatók, kihívásokkal teliek, mérhető fejlődést is lehetővé tesznek, ez pedig ideális tesztkörnyezet. A DeepMind története is ezt igazolja, az Atari-játékokkal kezdődő kutatások, mint az AlphaGo és az AlphaStar világhírű eredményeket hoztak. Emlékezzünk csak vissza arra, amikor ezek a programok megverték a világ legjobb gojátékosait. A játékok azonban eddig szigorú korlátok közé szorították az általánosabb MI-k betanítását, hiszen a gazdag és változatos környezetek megalkotása idő- és erőforrás-igényes feladat volt. Az erőforrásigény valószínűleg továbbra is megmaradt, hiszen sokszor érik azok a kritikák az MI-t, hogy túl sokba kerül, az üzemeltetése, betanítása, hardverigénye igen magas, viszont úgy tűnik, az idővel mint tényezővel már nem kell számolnunk.
A Genie 2 nem egyszerű játékgenerátor, hanem világmodell, mely képes virtuális világok szimulálására és az azokban végrehajtott akciók következményeinek megjelenítésére. A világmodell fogalma azt jelenti, hogy a Genie 2 nemcsak a környezetet, hanem akciókat és azok következményeit vagy a bekövetkező változásokat is modellezi, legyen szó ugrásról, úszásról, ajtókon belépésről vagy tárgyak manipulálásáról. A modell Imagen 3 által generált képekből indul ki. Vagyis a felhasználók, tehát mi, leírást adhatunk a megálmodott világról, kiválaszthatjuk a legszimpatikusabb megjelenítést, és máris beléphetünk ebbe az általunk létrehozott új 3D-környezetbe. Egy ilyen játékként használható, vagy tesztkörnyezetként szórakoztathatja és taníthatja a mesterséges intelligenciát. A Genie 2 legnagyobb érdeme, hogy lehetőség van prototípusokat készíteni pillanatok alatt. Már egy egyszerű koncepciós rajzból vagy vázlatszerű ábrából is képes teljes értékű, interaktív, 3D-környezeteket létrehozni. Ez forradalmi változást hoz a játékfejlesztésben és a kutatási környezetek kialakításában, hiszen eddig jobb esetben csak hetek, de inkább hónapok kellettek az egyedi tesztkörnyezetek megalkotásához.
A Genie 2 az MI-modell képzését is átalakítja. Az általános MI-modell feladata az, hogy ismeretlen környezetekben is képes legyen útmutatás nélkül cselekedni. A DeepMind SIMA nevű MI-modellje a Genie 2 által generált környezetekben úgy teljesít feladatokat, hogy azokat korábban nem látta. Egy egyszerű példa: a SIMA képes felismerni, hogy az utasítás szerint egy piros és egy kék ajtó közül melyiket nyissa ki. A Genie 2 abban is eltér más megoldásoktól, hogy „emlékezni tud” a korábban generált tartalmakra. Vagyis ha a játékos megfordul, ugyanaz a látvány fogadja, mint korábban. Ez kulcsfontosságú a valósághű élményhez, hiszen a hagyományos modellek gyakran elfelejtik a korábbi állapotokat, amikor a kamera szöge változik. A Genie 2 azonban képes fenntartani az egységes világképet.
A Genie 2 jelenlegi változata már most lenyűgöző képességekkel bír — azon a szinten van, mint az először megjelenő képgeneráló programok —, de a DeepMind célja, hogy a világgenerálás minél szélesebb körben alkalmazható és konzisztens legyen, illetve képes legyen minél többféle változatosabb és univerzálisabb környezetet létrehozni. Célja tehát, hogy a generált világok ne csak specifikus, előre meghatározott típusúak legyenek (pl. erdő, város, szoba), hanem sokféle stílusban, műfajban és szabályrendszerben is megjeleníthetők legyenek — a felhasználó utasításai alapján. Az MI viszont egyelőre még nem alkalmas valódi videójátékok generálására, hiszen a tesztek során átlagosan 10-20 másodpercig, de legfeljebb 1 percig tudott konzisztens világokat létrehozni. Egyes becslések szerint tíz éven belül elérhetjük azt a határt, amikor az MI teljes játékokat tesz majd le az asztalra, a Genie 2 pedig fontos lépés ebbe az irányba.
A generatív MI-megoldások gyakran szembesülnek jogi kérdésekkel, és ez alól a Genie 2 sem kivétel. A DeepMindnak fel kell készülnie arra, hogy bizonyítsa, a modell nem használt fel jogvédett játékforrásokat a betanítás során. Az OpenAI és más generatív MI-fejlesztők már most is több peres ügyben érintettek, melyekben azt állítják a felperesek, hogy a modellek engedély nélkül használtak fel jogvédett anyagokat a tanuláshoz. A DeepMind hangsúlyozza, a technológiát felelősségteljesen kívánják fejleszteni, figyelembe véve a biztonsági és az etikai kérdéseket is.
Az MI-generált képek és videók már most is képesek hamis információk terjesztésére, és a deepfake videók jó példái ennek, hiszen már a szakértőknek is nagy kihívás megkülönböztetni a generált tartalmat a valóságtól, a hozzá nem értőket pedig ott csapják be, ahol akarják. De mi történik, ha egy MI által generált 3D-világ élethűen rekonstruálja valódi események helyszíneit? Egy ügyesen összeállított szimuláció képes lehet eltorzítani a közvéleményt, ha valaki azt hiszi, hogy egy valódi eseményt lát. Volt is erre példa a mostani amerikai elnökválasztás kapcsán, amikor éljenző tömeget „varázsoltak” a választás második helyezettje elé, a tükröződő felületekre viszont nem figyeltek, és így látni lehetett, hogy üres reptérre érkezett.
A veszélyek mellett érdemes szót ejteni a Genie 2 pozitív felhasználási lehetőségeiről is, melyek utat nyithatnak az oktatás, az egészségügy és az ipari szektor számára. A Genie 2 tehát nemcsak a játékfejlesztés eszköze, hanem az általános mesterséges intelligencia (AGI) felé vezető út egyik mérföldköve is. Az, hogy képes szinte bármit 3D-világgá alakítani egy egyszerű képből és szöveges utasításból, új távlatokat nyit az MI-kutatás, a játékfejlesztés és a kreatív iparágak számára. Képzeljük csak el, ahogy az iskolákban a diákok interaktív órákon vehetnek részt, ahol a tanár egyetlen utasítással megjeleníthet egy római kori várost vagy a Naprendszer modelljét. A száraz tankönyvi anyag helyett „átjárhatják” a tananyagot. Az orvostanhallgatók valósághű testmodelleken gyakorolhatják a műtéteket anélkül, hogy veszélyeztetnék az élő páciensek biztonságát. Az ilyen szimulációs tréningek ma már léteznek, de a Genie 2 sokkal élethűbb, dinamikusabb környezeteket tudna teremteni.
Fotók: Google Deepmind