A Google Genie 2 modellje akár 60 másodperces interaktív tartalmat is létre tud hozni, vagyis egy olyan világot, amiben a játékos karaktere mászkálhat, miközben a rendszer folyamatosan teszi össze a soron következő képkockákat.
Az úgynevezett világmodellek (world models) – vagyis azok a mesterséges intelligenciák, amelyek valós időben képesek szimulációs környezetet létrehozni – a gépi tanulás egyik leglenyűgözőbb alkalmazását jelentik. Az elmúlt időszakban az MI fejlesztésével foglalkozó cégek is egyre nagyobb figyelmet fordítottak erre, ennek eredményeként mutatta be alig néhány napja a World Labs nevű amerikai cég a saját fejlesztését. Most pedig itt egy nagyobb szereplő megoldása, a Google DeepMind Genie 2-je.
A cég közlése szerint míg az eredeti modell, a Genie a kétdimenziós tartalmak létrehozásában jeleskedett, az új modell képes ugyanezt háromdimenziós változatban megtenni, és azokat viszonylag sokáig fenntartani.
A DeepMind szerint a Genie 2 nem egy játékmotor, hanem egy diffúziós modell, ami folyamatosan képeket generál, miközben a játékos – legyen szó emberről vagy épp egy másik, gép által irányított karakterről – folyamatosan a szimulált világban mozog. A képkockák létrehozása közben a környezet is inspirálja a rendszert, így képes modellezni a vizet, a füstöt és a fizikai hatásokat – igaz, ezen tartalmak némelyikén jól látszik, hogy nem valódi.
A létrehozott világban többféle módon is mozoghatnak a felhasználók – legyen szó egy first person shooter típusú játékról, vagy egy kívülről irányított karakterről. A világ legenerálásához elég csupán egyetlen kép kiindulási pontnak, amit a Google Imagen 3 modellje, vagy valamilyen más forrás biztosít.
A rendszer további különlegessége, hogy képes megjegyezni a korábban látott részleteket. Vagyis ha egy játékos a karakterének látótere elhagy egy területet, de később visszatér oda, akkor ugyanúgy hozza azt létre, mint ahogy korábban kinézett.
A Genie 2-nek azonban vannak korlátai is. Miközben a Google azt állítja, hogy akár 60 másodperces jeleneteket is képes generálni, a legtöbb példa nem hosszabb 10-20 másodpercesnél. Ráadásul a rendszer jelentősen ront a képminőségen, hogy minél tovább fenn tudja tartani a mesterséges világot.
A cég azt nem közölte, hogyan képezte ki a modellt, csak annyit árult el, hogy nagy adatkészletre támaszkodott. Ez könnyen lehet, hogy a játékvideókat gyártók streamjeit jelenti, ami etikai és jogi problémákat is felvet.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.