Itt az ideje, hogy tegyünk valamit a mesterséges intelligencia ténykedése ellen – veti fel egy amerikai professzor, elsősorban a MI által generált, a valóságosakra a megtévesztésig hasonlító képekkel, szövegekkel kapcsolatban. Az amúgy észrevehetetlen vízjelek használatát tartaná a legjobb megoldásnak.
Hírfotóknak tűnő képek tűntek fel a neten Donald Trump volt amerikai elnök rendőrök által történő lerohanásáról. Minthogy a képek közvetlenül azután jelentek meg, hogy kiszivárgott a Trump elleni közeli vádemelés, sokan valódinak tartották a képeket. Pedig nem azok voltak, generatív mesterséges intelligencia hozta létre ezeket.
A generatív mesterséges intelligencia képgenerátorok (például a DALL-E, a Midjourney és a Stable Diffusion), illetve a szöveggenerátorok (pl. ChatGPT, Bard, Chinchilla, LLaMA) formájában tör be mindennapi életünkbe. A gépi tanulási algoritmusok és az emberek által generált tartalmak kombinálásával szinte bármire képesek az ilyen rendszerek: kísértetiesen valósághű képet hoznak létre egy feliratból, szintetizálnak egy beszédet Joe Biden elnök hangján, lecserélik az egyik személy képét egy másikra a videóban – írja a The Conversation hasábjain a Berkeley Egyetem számítástechnika-professzora.
Bár a generatív mesterséges intelligencia egyelőre még gyerekcipőben jár, de máris képes rendkívül valósághű tartalmakat létrehoznia. S bár van még hova fejlődnie, már most is ijesztő, amire képes: lemásolhatja és eltorzíthatja a valóságot. Képzeljük csak el, egy ilyen világban pofonegyszerű lesz videót készíteni arról, hogy egy vezérigazgató azt mondja, hogy cége nyeresége 20 százalékkal csökkent, ami milliárdos piaci részesedésvesztéshez vezethet, vagy videót készíteni arról, hogy egy nagyhatalom vezetője katonai akcióval fenyegetőzik, ami geopolitikai válságot válthat ki, vagy bármilyen ismert személyt (azaz a mását) beilleszteni egy szexuális tartalmú videóba.
Mekkora gond lehet abból, hogy nem nagyon értjük, mi zajlik a mesterséges intelligencia fejében?
Sok problémát okozhat, hogy nem tudjuk, válaszadás előtt és közben mit "gondol" egy gép. Alapfogalmakat is újra kell gondolni, ahogy egyre inkább elterjed a mesterséges intelligencia.
A generatív mesterséges intelligencia fejlődése – magyarázza a professzor –hamarosan azt fogja jelenteni, hogy a hamis, de vizuálisan meggyőző tartalmak terjednek el az interneten, ami még zavarosabb információs ökoszisztémához vezethet. Szerencsére léteznek ésszerű és technológiailag megvalósítható beavatkozások, amelyek segíthetik leleplezni ezeket a visszaéléseket, amire az emberi szem már képtelen. A szakember szerint egy kulcsfontosságú eljárás lehet a vízjelezés. A vízjelezés jól ismert módszer, nagy múltra tekint vissza a dokumentumok és egyéb tárgyak hitelességének bizonyítására, tulajdonjogának és hamisításának jelzésére. Egy jó példa erre a hatalmas képarchívum, a Getty Images, amely látható vízjelet ad a katalógusában található összes digitális képhez. Ez lehetővé teszi az ügyfelek számára, hogy szabadon böngészhessenek a képek között, miközben megóvják Getty eszközeit.
Az észrevehetetlen digitális vízjeleket a digitális jogkezeléshez is használják. Vízjel adható egy digitális képhez például úgy, hogy minden 10. képpontot úgy módosítson, hogy a színe (általában 0 és 255 közötti szám) páros értékű legyen. Mivel ez a pixelmódosítás egészen parányi, a vízjel észrevehetetlen. És mivel nem valószínű, hogy ilyen mintázat természetes módon fordul elő, könnyen ellenőrizhető, felhasználható a kép eredetének ellenőrzésére.
Még a közepes felbontású képek is több millió pixelt tartalmaznak, ami azt jelenti, hogy a vízjelbe további információk is beágyazhatók, beleértve a generáló szoftvert kódoló egyedi azonosítót és egyedi felhasználói azonosítót. Ugyanez az észrevehetetlen vízjel alkalmazható hangra és videóra is.
Komoly tiltást vezetett be az egyik legismertebb képgenerátor, nem lehet képeket készíteni Hszi Csin-ping kínai elnökről
Komoly szigorítást eszközölt a Midjourney, amivel a világ több vezető politikusáról is készült már deepfake fotó: letiltották annak lehetőségét, hogy bárki a világban a kínai elnökről készíttessen fotót.
És mi a helyzet az MI által előállított szövegekkel? Nos, itt a vízjelezés azt jelenti, hogy a generált szövegnél titokban megcímkézik a szavak egy részét, majd szinonim címkézett szóvá alakítják. Például a „felfog” címkével ellátott szó használható a „megért” helyett. A szókiválasztás ilyen módon történő időnkénti torzításával egy szövegrész vízjelet kap a címkézett szavak meghatározott eloszlása alapján. Ez a megközelítés nem működik rövid tweeteknél, de általában 800 vagy több szóból álló szöveg esetén hatásos, az adott vízjel részleteitől függően.
A generatív mesterséges intelligencia rendszerek minderre képesek, és a professzor úgy gondolja, hogy vízjellel kellene ellátniuk minden tartalmukat, ami lehetővé tehetné a könnyebb azonosítást és szükség esetén a beavatkozást. Ha az iparág ezt nem teszi meg önként, a törvényhozóknak kellene rendeletet elfogadniuk ennek a szabálynak a végrehajtására. Lesznek persze, akik nem fognak megfelelni ezeknek a normáknak. De ha a nagy online kapuőrök – az Apple és a Google alkalmazásboltok, az Amazon, a Google, a Microsoft felhőszolgáltatásai és a GitHub – betartatják ezeket a szabályokat a nem megfelelő szoftverek betiltásával, a károk jelentősen csökkenhetnek – teszi még hozzá a szakember.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.