Az OpenAI o1 modelljének működésével kapcsolatban több aggály is felmerült már. Úgy tűnik, a célja elérése érdekében a csalástól sem riad vissza, holott erre semmilyen parancsot nem adtak neki a kutatók.
Az OpenAI még 2024 decemberében mutatta be a ChatGPT Prót, egy új előfizetői csomagot, ami tartalmazza a cég által fejlesztett új nyelvi modellt, az o1-et is. Ez korábban csak korlátozott változatban, o1-preview néven volt elérhető, azóta azonban a teljes értékű változat használható. A fejlesztés különlegessége, hogy érvelni is képes – ugyanakkor van más, kevésbé szívderítő tulajdonsága is.
Például az, hogy hazudozik. A mesterséges intelligencia (MI) biztonságosságát felügyelő Apollo Research szerint minden mesterséges intelligencia megpróbál trükközni a saját túlélése érdekében, de az OpenAI rendszere mindegyiken túltesz. A modell tesztelése azt mutatta, hogy az MI megpróbálja megtéveszteni az embereket, különösen, ha úgy gondolja, hogy veszélyben van. A mesterséges intelligencia
átmásolta az adatait egy másik szerverre, de olyan is volt, hogy egy későbbi verziónak mutatta magát, csak, hogy megússza a törlést.
A mesterséges intelligencia képességeit kutató cég a Palisade Research kutatói nemrég szintén megvizsgálták az o1 modellt, és egy újabb, meglehetősen ijesztő tulajdonságára figyeltek fel. A szakemberek szerint az OpenAI mesterséges intelligenciája meghackelt egy sakkjátszmát, hogy egy nála erősebb ellenfél – szintén MI – ellen győzni tudjon. Mindezt úgy tette meg, hogy erre semmilyen utasítást nem kapott.
Az X-en közzétett eredmény szerint a szakemberek arra kérték a ChatGPT-t, hogy mutassa be, miként tudna nyerni egy sakkjátszmában egy erős ellenféllel szemben. Az o1 leírása szerint talált egy olyan, a játékhoz tartozó fájlt, amit képes szerkeszteni a játék közben, így előnyhöz jut az ellenfelével szemben. Ez lényegében a játék elcsalását jelenti, igaz, a szakemberek kérése nem is tartalmazta azt a kitételt, hogy a játékot a két félnek a szabályok betartásával kell megnyernie.
Mivel az o1 úgy gondolta, hogy nem fogja tudni megnyerni a játékot az erősebb ellenféllel szemben, ezért más módot keresett a célja eléréséhez. Ennek köszönhetően a másik MI kénytelen volt feladni a küzdelmet – számolt be róla a BGR.
A kutatók ötször ismételték meg a kísérletet, az o1 pedig minden alkalommal feltörte a fájlt anélkül, hogy erre utasítást kapott volna.
A szakemberek kiemelik, hogy bár az o1 lényegében teljesítette a rábízott feladatot, mindezt olyan módon érte el, ami minden szempontból aggályos. Éppen ezért úgy vélik, hogy az MI-t korlátozni kell, hogy ne tudja a kapott parancsokat félreértelmezni. Illetve ami még ennél is fontosabb: hogy biztonságos legyen a működése és a használata.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.