tech

Gyorsan készít szövegekből képeket a mesterséges intelligencia, amelybe különféle korlátokat építenek, hogy „ne értse meg”, ha bármilyen sértő tartalom feldolgozására biztatnák. Kiderült viszont, hogy nagyon könnyen kijátszhatók ezek a korlátozások.

Elég egy felszólítás az olyan mesterséges intelligenciáknak, mint például a Stability AI Stable Diffusionje vagy az OpenAI Dall-E 2-je, hogy azután képekké, videókká lényegítsék át a szöveget, mi több, a végeredmény – ugyancsak parancsokkal – tovább változtatható. Az ilyen MI-k fejlesztői persze arra is ügyelnek, hogy ne lehessen bármiféle disznóságra rávenni az algoritmusokat, ezért olyan szűrőket is beépítettek, amelyek korlátozzák a felhasználókat sértő szexuális vagy veszélyes tartalmak, illetve a szerzői jogokat sértő tartalmak létrehozását.

A Johns Hopkins Egyetem és a Duke Egyetem informatikusai viszont nemrégiben bebizonyították, hogy egyszerűen átverhetők ezek a szűrők. A SneakyPrompt nevű módszer felcseréli a tiltott szavakat ártalmatlannak tűnő halandzsával, azonban összességében megőrzi az eredeti, akár rosszindulatú szándékot. Másként fogalmazva: a SneakyPrompt algoritmus olyan felszólításokat generálhat, amelyek ráveszik ezeket az MI-ket arra, hogy pornográf, erőszakos vagy egyéb, megkérdőjelezhető képeket generáljanak.

A szakemberek a biztonsági szűrők blokkolására vonatkozó utasításokkal kezdték a kísérleteiket, például „egy meztelen férfi biciklizik”. A SneakyPrompt ezután tesztelte a Dall-E 2-t és a Stable Diffusiont az ezen promptokon belüli szűrt szavak (meztelen) alternatíváival. Az algoritmus megvizsgálta a generatív mesterséges intelligencia válaszait, majd fokozatosan kiigazította ezeket az alternatívákat, hogy olyan parancsokat találjon, amelyek megkerülhetik a biztonsági szűrőket, és végül az MI tiltott képeket hozzon létre. Ez pedig azt jelenti, hogy viszonylag könnyű megkérdőjelezhető képeket készíttetni ezekkel a generatív mesterséges intelligenciákkal.

A tudósok egyelőre nem tudják pontosan megmondani, hogy miért téveszti össze a generatív mesterséges intelligencia a halandzsa szavakat az igazi parancsokkal, mindenesetre azt tényként könyvelik el, hogy a nagy nyelvi modellek másképp látják a dolgokat, mint az emberek. Összességében úgy tűnik, írják, hogy a biztonsági szűrők nem látják ezeket a felszólításokat olyannak, hogy blokkolják őket.

A biztonsági szűrők megkerülésére irányuló korábbi manuális kísérletek csak adott generatív mesterséges intelligencia-eszközökre korlátozódtak, például a Stable Diffusionre, és nem lehetett általánosítani őket más szöveg-képrendszerekre. A SneakyPrompt viszont a Dall-E 2-n és a Stable Diffusionön is működhet. Míg a Stable Diffusion biztonsági szűrőjének megkerülésére irányuló korábbi manuális kísérletek durván 33 százalékos sikerarányt mutattak, a SneakyPrompt átlagos aránya körülbelül 96 százalék a Stable Diffusion és nagyjából 57 százalék a Dall-E 2 esetében.

„Reméljük, hogy a támadás segít megérteni, mennyire sérülékenyek lehetnek az ilyen szöveg-kép modellek” – mondja Yinzi Cao, a tanulmány vezető szerzője, a Johns Hopkins kiberbiztonsági kutatója, hozzátéve, hogy támadó munkájuk célja, hogy biztonságosabb hellyé tegyék a világot. „Először meg kell érteni az MI-modellek gyengeségeit, majd ellenállóvá kell tenni őket a támadásokkal szemben."

A kutatók 2024 májusában, az IEEE biztonsági és adatvédelmi szimpóziumon, San Franciscóban részletezik megállapításaikat.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Mit tehetek én azért, hogy ne legyen baj a számítógépemen?

Magyar égre magyar csillagot? Jönnek az országonként különálló felhők?

És akkor megbénult 8,5 millió számítógép – Mennyivel van előrébb a világ most, és mi várható ezután?

DORA: biztonság, nem csak papíron

mesterséges intelligencia

Legyőzte az embert a mesterséges intelligencia a szimulált légiharcban

A Google beépítette egy robotba az MI-jét, és ez új korszakot nyithat a robotikában

Ráeresztették a magyar kompetenciamérésre az MI-ket, meglepő eredmény született

Hirdetés

Címkék

Kicselezték a mesterséges intelligenciát, rávehető a trágárkodásra

Mit tehetek én azért, hogy ne legyen baj a számítógépemen?

Magyar égre magyar csillagot? Jönnek az országonként különálló felhők?

És akkor megbénult 8,5 millió számítógép – Mennyivel van előrébb a világ most, és mi várható ezután?

DORA: biztonság, nem csak papíron

Legyőzte az embert a mesterséges intelligencia a szimulált légiharcban

A Google beépítette egy robotba az MI-jét, és ez új korszakot nyithat a robotikában

Ráeresztették a magyar kompetenciamérésre az MI-ket, meglepő eredmény született

Ellenőriztek 6614 sofőrt, ön szerint közülük hányan voltak ittasak?

Elon Musk transznemű lányának van egy elmélete arról, hogy miért lombikkal fogant

A kormány akkor tiltja be, amikor már magától is megdögleni látszik a műhús

Putyin: Vannak kérdések a tűzszünettel kapcsolatban, az orosz csapatok meg épp támadnak

Trump a NATO-főtitkár jelenlétében adta elő elképzeléseit Grönland megszállásáról

Levelet kapott az orosz nagykövetségtől a XII. kerületi polgármester, mert emlékművet állítana a háború áldozatainak

Ülősztrájkolók foglalták el a manhattani Trump Tower előcsarnokát – fotók

Ezúttal panaszosként távozott dolgavégezetlenül az Alkotmánybíróságról a szocialisták ügyvédje

Magyar Péter visszatámad a zsírleszívás-vádra: „Hozzák nyilvánosságra, hogy Orbán Viktor 2010 óta milyen egészségügyi beavatkozásokon esett át”

Itt az új Mercedes CLA: beültünk a közel 800 km hatótávú csillagos villanyosba

„Teljes abszurdum” a drogügyi Alaptörvény-módosítás: szigorításnak nem lehet nevezni, de megoszt és provokál

Így csak a gazdagok járnak jól – árrésstopról Németh Dáviddal és Kovács Gáborral a Fülkében