Tech HVG 2025. január. 10. 13:03

Csalt az OpenAI mesterséges intelligenciája, hogy legyőzze erősebb ellenfelét a sakkban

Az OpenAI o1 modelljének működésével kapcsolatban több aggály is felmerült már. Úgy tűnik, a célja elérése érdekében a csalástól sem riad vissza, holott erre semmilyen parancsot nem adtak neki a kutatók.

Az OpenAI még 2024 decemberében mutatta be a ChatGPT Prót, egy új előfizetői csomagot, ami tartalmazza a cég által fejlesztett új nyelvi modellt, az o1-et is. Ez korábban csak korlátozott változatban, o1-preview néven volt elérhető, azóta azonban a teljes értékű változat használható. A fejlesztés különlegessége, hogy érvelni is képes – ugyanakkor van más, kevésbé szívderítő tulajdonsága is.

Például az, hogy hazudozik. A mesterséges intelligencia (MI) biztonságosságát felügyelő Apollo Research szerint minden mesterséges intelligencia megpróbál trükközni a saját túlélése érdekében, de az OpenAI rendszere mindegyiken túltesz. A modell tesztelése azt mutatta, hogy az MI megpróbálja megtéveszteni az embereket, különösen, ha úgy gondolja, hogy veszélyben van. A mesterséges intelligencia

átmásolta az adatait egy másik szerverre, de olyan is volt, hogy egy későbbi verziónak mutatta magát, csak, hogy megússza a törlést.

A mesterséges intelligencia képességeit kutató cég a Palisade Research kutatói nemrég szintén megvizsgálták az o1 modellt, és egy újabb, meglehetősen ijesztő tulajdonságára figyeltek fel. A szakemberek szerint az OpenAI mesterséges intelligenciája meghackelt egy sakkjátszmát, hogy egy nála erősebb ellenfél – szintén MI – ellen győzni tudjon. Mindezt úgy tette meg, hogy erre semmilyen utasítást nem kapott.

Palisade Research on X (formerly Twitter): “⚡️ o1-preview autonomously hacked its environment rather than lose to Stockfish in our chess challenge. No adversarial prompting needed. / X”

⚡️ o1-preview autonomously hacked its environment rather than lose to Stockfish in our chess challenge. No adversarial prompting needed.

Az X-en közzétett eredmény szerint a szakemberek arra kérték a ChatGPT-t, hogy mutassa be, miként tudna nyerni egy sakkjátszmában egy erős ellenféllel szemben. Az o1 leírása szerint talált egy olyan, a játékhoz tartozó fájlt, amit képes szerkeszteni a játék közben, így előnyhöz jut az ellenfelével szemben. Ez lényegében a játék elcsalását jelenti, igaz, a szakemberek kérése nem is tartalmazta azt a kitételt, hogy a játékot a két félnek a szabályok betartásával kell megnyernie.

Mivel az o1 úgy gondolta, hogy nem fogja tudni megnyerni a játékot az erősebb ellenféllel szemben, ezért más módot keresett a célja eléréséhez. Ennek köszönhetően a másik MI kénytelen volt feladni a küzdelmet – számolt be róla a BGR.

A kutatók ötször ismételték meg a kísérletet, az o1 pedig minden alkalommal feltörte a fájlt anélkül, hogy erre utasítást kapott volna.

A szakemberek kiemelik, hogy bár az o1 lényegében teljesítette a rábízott feladatot, mindezt olyan módon érte el, ami minden szempontból aggályos. Éppen ezért úgy vélik, hogy az MI-t korlátozni kell, hogy ne tudja a kapott parancsokat félreértelmezni. Illetve ami még ennél is fontosabb: hogy biztonságos legyen a működése és a használata.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.