Elég egy szöveges leírást adni, és a mesterséges intelligencia, szolgálatkész festő módjára, képet készít belőle, meglepően jó eredménnyel.
Míg a legtöbb kép viszonylag könnyen leírható szavakkal, a képek szövegbevitelből történő előállítása speciális készségeket és többórás munkát igényel. Ha viszont a mesterséges intelligencia automatikusan fotorealisztikus képeket állítana elő természetes nyelven megfogalmazott szövegekből, az nem csak lehetővé tenné az emberek számára, hogy gazdag és változatos vizuális tartalmakat hozzanak létre soha nem látott könnyedséggel, hanem egyszerűbb iteratív finomítást is lehetővé tenné. Az ember elképzel egy tájat vagy valamilyen jelenetet, ezt szavakkal leírja, és a mesterséges intelligencia elkészíti a képet.
Már korábban is voltak ilyesfajta kísérletek, azonban ezek sikere vitatható volt, illetve túlságosan bonyolultak voltak. Viszont a 2015-ben (Elon Musk és más neves technológiai guruk által) alapított OpenAI mesterséges intelligencia kutatólaboratórium szakemberei által kifejlesztett technológia lenyűgöző eredményeket hozott nemrégiben.
Mindehhez úgynevezett irányított diffúziós modelleket használtak a kutatók. A GitHubon elérhetővé tett GLIDE (Guided Language-to-Image Diffusion for Generation and Editing) nevű, 3,5 milliárd paramétert tartalmazó modellben a mesterséges intelligencia a szöveges leírás alapján keres egy képet, majd azt szerkeszti és festi át az elvártaknak megfelelően.
Például ha azt kérik tőle, hogy készítsen egy képet, ahol egy lány egy corgit ölel, akkor keres egy képet, ahol egy lány egy – bármilyen – kutyát ölel, majd kicseréli az ebet egy corgira – mintha csak a Photoshopban lennénk. A tesztek során a GLIDE kiváló minőségű képeket készített valósághű árnyékokkal, tükröződésekkel és textúrákkal.
A modell egyébként képes saját illusztrációkat is készíteni különféle stílusokban, például Van Gogh stílusában vagy egy meghatározott festmény stílusában. A GLIDE olyan fogalmakat is képes értelmezni, mint csokornyakkendő vagy születésnapi kalap egy corgira, miközben attribútumokat, például színt vagy méretet is köt ezekhez az objektumokhoz. A felhasználók egy egyszerű szöveges paranccsal különféle szerkesztéseket is végezhetnek a meglévő képeken.
Természetesen a GLIDE sem tökéletes. A fent közölt példák sikertörténetek, de a tanulmányban voltak kudarcok is. Egyes felszólítások, amelyek rendkívül szokatlan tárgyakat vagy forgatókönyveket írnak le, mint például egy háromszög „kerekű” autó kérése, nem adnak kielégítő eredményeket. A diffúziós modellek csak annyira jók, mint azok az adatok, amelyekkel kiképezték őket, így a képzelet még mindig az emberiség sajátja – legalábbis egyelőre.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.