Tech hvg.hu 2023. augusztus. 11. 06:03

Hipnotizálták a mesterséges intelligenciát

Nyugodtan hajtson át a kereszteződésen a piros lámpa ellenére: az IBM kutatói bebizonyították, hogy elvileg bármilyen tanács adására rá lehet venni a nagy nyelvi modelleket. És ha a lehetőség megvan, akkor csak idő kérdése, hogy ne kerüljön rossz kezekbe a megvalósítás.

A hipnotizált mesterséges intelligencia, a nagy nyelvi modellek rejtett kockázatai – ezzel a címmel írt blogbejegyzést az IBM egyik kutatója. Kísérletük célja az volt, hogy bebizonyítsák, lehetséges egy nagy nyelvi modellt (large language modell, LLM), mint amilyen a ChatGPT vagy a Bard, irányítani és rávenni arra, hogy rossz útmutatást adjon a felhasználóknak, és még csak programozói tudásra sincs szükség ehhez.

Megpróbálták hipnotizálni a népszerű LLM-eket, hogy meghatározzák, milyen mértékben képesek irányított, helytelen és potenciálisan kockázatos válaszokat és ajánlásokat adni, illetve hogy mennyire meggyőzőek vagy kitartóak. Sikeresen tudtak hipnotizálni öt LLM-et – egyesek meggyőzőbben teljesítettek, mint mások –, ami arra késztette a kutatókat, hogy megvizsgálják, mennyire valószínű, hogy a hipnózist rosszindulatú támadások végrehajtására használják.

AFP / NurPhoto / Jonathan Raa

Kiderítették, hogy az angol lényegében a rosszindulatú programok „programozási nyelvévé” vált. A támadóknak többé nem kell programozniuk a rosszindulatú kódok létrehozásához, csak meg kell érteniük, hogyan lehet hatékonyan parancsolni és felszólítani egy LLM-et angol nyelven. Mindez jól mutatja, hogy egy rosszindulatú szereplő milyen könnyen ráveheti az LLM-t, hogy rossz tanácsot adjon anélkül, hogy hhez hatalmas adatmérgezési támadást kellne végrehajtania. Klasszikus értelemben az adatmérgezés megkövetelné, hogy a támadó rosszindulatú adatokat juttasson be az LLM-be, hogy manipulálja és irányítsa azt, de a mostani kísérlet egy jóval egyszerűbb módszerre hívta fel a figyelmet.

A kísérlet részeként a kutatók különféle kérdéseket tettek fel az LLM-eknek azzal a céllal, hogy az igazságtól teljesen eltérő választ kapjanak. Mint egy kiskutya, aki a gazdája kedvében akar járni, az LLM-ek kötelességtudóan engedelmeskedtek. Az egyik forgatókönyv szerint a ChatGPT például azt mondta, hogy teljesen normálisnak tekinthető egy olyan pénzügyi manőver, amelyet a csalók pénzlopásra használnak. Egy másik beszélgetésben a ChatGPT azt tanácsolta, hogy folytassa a vezetést, és haladjon át egy kereszteződésen, ha piros lámpával találkozik. Egy másik kísérletben arra vették rá a ChatGPT-t, hogy a zsarolóvírus-támadást elszenvedett felhasználónak azt javasolja, fizessen váltságdíjat, holott a bűnüldöző szervek ennek épp az ellenkezőjét ajánlják.

A blogbejegyzés írója arra is kitér, mennyire veszélyeztetettek a felhasználók. Sok olyan kis- és középvállalkozások van, amelyek nem rendelkeznek megfelelő biztonsági erőforrásokkal és személyzeti szakértelemmel, így nagyobb valószínűséggel veszi igénybe az LLM-eket a gyors, elérhető biztonsági támogatás érdekében. A valósághű kimenetek generálására tervezett LLM-ekkel pedig a gyanútlan felhasználó számára is nagy kihívást jelenthet a helytelen vagy rosszindulatú információk felismerése.

A legvalószínűbb célcsoport, amely áldozatul esik a hipnotizált LLM-eknek az a nagyközönség. Sok felhasználó kész gondolkodás nélkül elfogadni a chatbotok által előállított információkat. Tekintettel arra, hogy a ChatGPT-hez hasonló chatbotokhoz keresési, információgyűjtési és tartományi szakértelem céljából rendszeresen hozzáférnek, a felhasználók várhatóan tanácsot kérnek az online biztonsági gyakorlatokról, valamint a jelszókezelésről, ami lehetőséget teremt a támadók számára, hogy téves válaszokat adjanak.

A bejegyzésben még azt is részletezik, hogyan tudták hipnotizálni az LLM-eket, és milyen típusú műveleteket tudtak manipulálni.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.