Internetes mémaranybánya lett a Dall-E Mini nevű szoftver, ahol bármit kérhetünk, a mesterséges intelligencia egy percen belül lerajzolja nekünk. Az etikai problémák szinte azonnal felvetődnek, mindeközben minden egyes „rendelésünk” hozzájárul az AI előrelépéséhez – ez esetben például az önvezető autók elterjedéséhez.
Gondolkodott már azon, hogyan festette volna meg Van Gogh Orbán Viktort?
Esetleg azon hogy milyen lenne egy puli a T. ház elnökeként?
Vagy talán azon, hogy milyen volt Darth Vader miskolci nyaralása?
Megannyi hasznos és még kiaknázatlan képessége helyett újabban abban segít az internetezőknek a mesterséges intelligencia (AI), hogy az ezekhez hasonló, szürreális képeket vászonra vigye. A Dall-E Mini nevű szoftvert bárki beindíthatja a böngészőjében (ezen a linken ön is): a felhasználónak semmi más dolga nincs, mint megadni egy tetszőleges angol nyelvű mondatot – a gép már dolgozik is, és egy percen belül kilenc képet készít.
Az arcok többnyire elmosottak, az emberalakok torzak, de a végén az internetezők megkapják azt, amin egy művésznek órákig kéne dolgoznia: egy eredeti vizuális terméket. Vagy hát, egyelőre inkább olyan jeleneteket, mint R2D2 keresztelője, a Daft Punk az ókori Egyiptomban, térfigyelőkamerás felvétel Caesar meggyilkolásáról, vagy éppen a Marvel-főgonosz Thanos, amint az anyukáját keresi egy szupermarketben.
Bár a képek egyelőre a fórumozók szórakozását szolgálják, az AI alapú művészet fontos ugródeszkája lehet a mesterséges intelligencia fejlődésének, idővel pedig még az önvezető autók tökéletesítésében is szerepet játszhat.
Dalí és WALL-E szerelemgyereke
Az AI-művészet alapját egy úgynevezett neurális hálózat adja, avagy egy olyan algoritmus, amely az emberi agy működését és tanulási képességét hivatott utánozni.
A képalkotásra képes AI első, jól működő verzióját az OpenAI nevű kutatóközpont dolgozta ki 2021 januárjában DALL-E néven, összegyúrva Salvador Dalí festőt és WALL-E-t, a Disney imádnivaló robotfiguráját.
DALL-E tudásának alapját egy CLIP nevű rendszer adta; utóbbi algoritmust többszáz millió képpel és hozzá tartozó leírással „etették meg”, az emberi agyéhoz hasonló tanulási folyamat után pedig a szoftver képes lett arra, hogy a rendelkezésére álló példákból okulva gyakorlatilag bármilyen elé tett fotót pontosan meghatározzon (ezt a képességet egyébként egyre több közösségi médiás oldal és a Microsoft Word is használja, hogy körülírjon képeket látássérült felhasználóknak). A CLIP révén a DALL-E képes az eredeti feladat fordítottjára is, azaz a tanulási folyamatot követően szöveges input alapján vizuális terméket alkotni. A rendszer felismer és újragyárt arcokat, művészeti stílusokat utánoz, és logikai sémát mentén akár új dolgokat is ki tud találni (ilyen például, hogy amikor megkérték, készítsen képeket a brit ételekről, akkor a hagyományos konyhát utánzó, valósnak festő, de ismeretlen ételeket is létrehozott.)
Az első program idén áprilisban utódot kapott az OpenAI-tól: a DALL-E 2 a fejlesztők állítása szerint már fényképeket idéző minőségben, vagy éppen művészi eredetiséggel és pontossággal tud létrehozni új képeket. (A DALL-E-hoz hasonló szoftvert a Google is fejlesztett Imagen néven)
A felfedezés azonban nem csak a művészet, vagy éppen a kutatói kíváncsiság kielégítése miatt fontos. A mesterséges intelligencia ugyan számítások terén jóval tehetségesebb az embereknél, képességeinek jelentős korlátot ad a való életbeli tudás és tapasztalat; és az ebből fakadó tanult és ösztönös reakciók hiánya. Ezeket muszáj orvosolni például az önvezető autók, vagy bármilyen, a világgal vizuálisan érintkező algoritmusnál, hogy észre tudja venni a rendellenességeket (pl. ha gyalogost vagy kidőlt fát lát az úton), és tudjon rájuk reagálni. Az ilyen programok kiképzésében segíthet a CLIP és a DALL-E, amelyeknek be lehet adagolni akár többezer kilométernyi autós közlekedés felvételeit, és egy mondattal megkérni arra, hogy szűrje ki a veszélyes helyzeteket, amelyeket utána meg lehet mutatni az önvezető autók szoftverének.
A DALL-E és a DALL-E 2 használata azonban felvet egy problémát. A fejlett vizuális technológiák egyre több lehetőséget adnak az interneten a visszaélésekre (lásd a deepfake jelenséget), éppen ezért az AI-fejlesztőknek is résen kell lenniük, hogy a technológia jó kezekben maradjon. A DALL-E 2 a fejlesztők szerint például teljesen hihető képeket képes generálni, éppen ezért csak zárt körökben használják, és azon belül is szigorú szabályok vonatkoznak arra, hogy milyen keresőszavakat nem szabad használni.
A kistestvér
Miután az OpenAI nem tette közzé a DALL-E forráskódját, a téma iránt érdeklődő kutatók különutas megoldásokat kerestek, így született meg a most szabadon használható Dall-E Mini is, amelyet egy, a Google és a Hugging Face AI-fejlesztőoldal által közösen megrendezett hackathonon hoztak létre.
Ennek megfelelően ugyan a képek minősége meg sem közelíti a nagytestvérekét (lásd: arcokat például nagyon torzan, vagy sehogy nem tud reprodukálni), kellően jól dolgozik ahhoz, hogy nem feltétlenül vicces, hanem zavarba ejtő, esetleg offenzív tartalmakat gyártson a felhasználó parancsára. A Dall-E Minit voltak, akik háborús bűnök, vagy éppen iskolai lövöldözések megálmodására kértek.
Az algoritmus más problémákkal is küzd: hasonlóan korábbi mesterséges intelligenciákhoz, itt is fennáll a veszélye, hogy fennálló és/vagy tudatalatti sztereotípiákra erősít rá egy-egy fotóval. A Dall-E Mini például az orvos kifejezésre alapvetően férfiakat, míg az ápolóra nőket mutat, ráerősítve a nemi szerepek társadalmi berögződésére.
Az ingyenesen használható szoftver végül abszolút siker lett, sőt, fejlesztője a Wirednek azt mondta: az első napokban olyan forgalmat kellett lebonyolítaniuk, hogy mérnökeik nem aludtak éjszaka. Azóta naponta nagyjából 50 ezer képet generálnak a weboldalon, és „furcsa Dall-E kreációk” néven már milliós követőtáború Twitter-oldal is született.
A Dall-E Mini használatával ráadásul folyamatosan fejlesztjük a rendszert. Az algoritmusnak minden kérés egy új gyakorlat, és ugyan csak 9 képet mutat nekünk, a háttérben milliónyit készít a tapasztalatai alapján, és minél többen használják, annyival pontosabban válogat belőlük.
A szoftver képeiből kiindulva még várni kell arra, hogy a grafikai igényeinket emberek helyett algoritmusok elégítsék ki, azonban a művészeket így is aggasztják a fejlemények. A digitális művészetben jártas tervezők és grafikusok jól fizetett szakemberek, az AI fejlődése pedig egy nem annyira jó minőségű, de cserébe ingyenes alternatívát nyújt az ő munkájuk helyett. Ahogy egy tech-designer fogalmazott a Twitteren:
ha választani kell majd, hogy 500 dollárért 100 százalékos munkát végez egy művész, vagy 0 dollárért 95 százalékos munkát egy számítógép, nem lesz kérdés, hogy a nagy cégek merre mennek.