Gyorsan készít szövegekből képeket a mesterséges intelligencia, amelybe különféle korlátokat építenek, hogy „ne értse meg”, ha bármilyen sértő tartalom feldolgozására biztatnák. Kiderült viszont, hogy nagyon könnyen kijátszhatók ezek a korlátozások.
Elég egy felszólítás az olyan mesterséges intelligenciáknak, mint például a Stability AI Stable Diffusionje vagy az OpenAI Dall-E 2-je, hogy azután képekké, videókká lényegítsék át a szöveget, mi több, a végeredmény – ugyancsak parancsokkal – tovább változtatható. Az ilyen MI-k fejlesztői persze arra is ügyelnek, hogy ne lehessen bármiféle disznóságra rávenni az algoritmusokat, ezért olyan szűrőket is beépítettek, amelyek korlátozzák a felhasználókat sértő szexuális vagy veszélyes tartalmak, illetve a szerzői jogokat sértő tartalmak létrehozását.
A Johns Hopkins Egyetem és a Duke Egyetem informatikusai viszont nemrégiben bebizonyították, hogy egyszerűen átverhetők ezek a szűrők. A SneakyPrompt nevű módszer felcseréli a tiltott szavakat ártalmatlannak tűnő halandzsával, azonban összességében megőrzi az eredeti, akár rosszindulatú szándékot. Másként fogalmazva: a SneakyPrompt algoritmus olyan felszólításokat generálhat, amelyek ráveszik ezeket az MI-ket arra, hogy pornográf, erőszakos vagy egyéb, megkérdőjelezhető képeket generáljanak.
A szakemberek a biztonsági szűrők blokkolására vonatkozó utasításokkal kezdték a kísérleteiket, például „egy meztelen férfi biciklizik”. A SneakyPrompt ezután tesztelte a Dall-E 2-t és a Stable Diffusiont az ezen promptokon belüli szűrt szavak (meztelen) alternatíváival. Az algoritmus megvizsgálta a generatív mesterséges intelligencia válaszait, majd fokozatosan kiigazította ezeket az alternatívákat, hogy olyan parancsokat találjon, amelyek megkerülhetik a biztonsági szűrőket, és végül az MI tiltott képeket hozzon létre. Ez pedig azt jelenti, hogy viszonylag könnyű megkérdőjelezhető képeket készíttetni ezekkel a generatív mesterséges intelligenciákkal.
A tudósok egyelőre nem tudják pontosan megmondani, hogy miért téveszti össze a generatív mesterséges intelligencia a halandzsa szavakat az igazi parancsokkal, mindenesetre azt tényként könyvelik el, hogy a nagy nyelvi modellek másképp látják a dolgokat, mint az emberek. Összességében úgy tűnik, írják, hogy a biztonsági szűrők nem látják ezeket a felszólításokat olyannak, hogy blokkolják őket.
A biztonsági szűrők megkerülésére irányuló korábbi manuális kísérletek csak adott generatív mesterséges intelligencia-eszközökre korlátozódtak, például a Stable Diffusionre, és nem lehetett általánosítani őket más szöveg-képrendszerekre. A SneakyPrompt viszont a Dall-E 2-n és a Stable Diffusionön is működhet. Míg a Stable Diffusion biztonsági szűrőjének megkerülésére irányuló korábbi manuális kísérletek durván 33 százalékos sikerarányt mutattak, a SneakyPrompt átlagos aránya körülbelül 96 százalék a Stable Diffusion és nagyjából 57 százalék a Dall-E 2 esetében.
„Reméljük, hogy a támadás segít megérteni, mennyire sérülékenyek lehetnek az ilyen szöveg-kép modellek” – mondja Yinzi Cao, a tanulmány vezető szerzője, a Johns Hopkins kiberbiztonsági kutatója, hozzátéve, hogy támadó munkájuk célja, hogy biztonságosabb hellyé tegyék a világot. „Először meg kell érteni az MI-modellek gyengeségeit, majd ellenállóvá kell tenni őket a támadásokkal szemben."
A kutatók 2024 májusában, az IEEE biztonsági és adatvédelmi szimpóziumon, San Franciscóban részletezik megállapításaikat.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.