A Kaliforniai Egyetem oktatói és hallgatói egy nem mindennapi küzdőteret fejlesztettek, amit bárki kipróbálhat. Chatbotokat lehet ugyanarra a feladatra felkérni, majd eldönteni, melyik teljesített jobban.
Azóta, hogy tavaly novemberben nyilvánosság elé került az OpenAI ChatGPT-je, megszaporodtak a mesterséges intelligencia alapú projektek. A legnagyobb technológiai vállalatok szinte azonnal kijöttek saját vagy sajátjuknak tekintett megoldásokkal, de azért a kisebb cégek sem akartak lemaradni. Az eredmény: csak úgy kapkodjuk a fejünket, annyiféle chatbot (ChatGPT-alternatíva) van ma már.
Ezek a chatbotok eltérőek, különböző nagy nyelvi modellt (large language model, LLM-et) használnak, más a felhasználói felületük, az áruk stb. Hogy némi rendet vágjanak ebben a káoszban, a Kaliforniai Egyetem kutatói és diákjai, pontosabban az általuk alapított nyílt kutatószervezet, a Large Model Systems Organization (LMYSY Org) létrehozták a Chatbot Arenát, egy mesterségesintelligencia-csatateret.
A Chatbot Arena tulajdonképpen egy benchmark platform az LLM-ek számára, ahol a felhasználó két véletlenszerűen választott modellt tesztelhet egy feladattal (pl. írjon egy meghatározott e-mailt), majd kiválaszthatja a legjobb választ anélkül, hogy tudná, melyik LLM áll az egyes válaszok mögött. Ezután már látható, hogy mely LLM-eket használták a kimenet létrehozásához.
A felhasználói értékelések eredményeit az LLM-ek rangsorolására használják fel egy Elo minősítési rendszeren alapuló ranglistán, amely a sakkban széles körben használt értékelési rendszer. A ranglista éllovasa (nem meglepő módon) a GPT-4, az OpenAI legfejlettebb LLM-je. A második helyre a Claude-v1, az Anthropic által kifejlesztett LLM került. Ez utóbbi még nem érhető el a nyilvánosság számára, de van egy várólista, ahol a felhasználók regisztrálhatnak a korai hozzáférésre.
A nyolcadik helyen áll a ranglistán a PaLM-Chat-Bison-001, a PaLM 2 almodellje, a Google Bard mögött álló LLM. Ez a helyezés megfelel a Barddal kapcsolatos általános vélekedésnek, miszerint nem a legrosszabb, de nem is tartozik a legjobbak közé.
A ZDNet arra a lehetőségre is felhívja a figyelmet, hogy a Chatbot Arena oldalán össze is lehet hasonlítani két modellt. Ez a funkció akkor lehet hasznos, ha valakit a konkrét LLM-ek érdekelnek. A Chatbot Arena jelenleg húsz különböző nyelvi modellt tartalmaz, köztük nyílt forráskódú megoldásokat is az internetről.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.