Tech hvg.hu 2024. április. 03. 18:03

Áttörést érhettek el az Apple mérnökei abban, hogy a mesterséges intelligencia valóban értse, mi van éppen a képernyőn

Az Apple mérnökei új megközelítést alkalmaztak az emberi beszéd értelmezésénél, így minden eddiginél kifinomultabbak lehet a vállalat eszközein elérhető hangalapú digitális asszisztens.

Az Apple mérnökeinek mesterséges intelligenciát (MI) érintő fejlesztéséről számolt be a MacRumors. Reference Resolution as Language Modeling (ReALM) nevű megoldásukban az Apple szakemberei egy új megközelítést vázoltak fel arra, hogy a nagy nyelvi modellek miként oldják fel a referenciákat, azaz miként értelmezik az eléjük kerülő tartalmakat.

A referenciák feloldása a természetes nyelv megértésének fontos része, ez teszi ugyanis lehetővé azt, hogy a beszélgetés során a felek zavartalanul használhassák például a névmásokat. Ha valaki azt mondja, hogy „arra gondolok”, akkor a másik fél jó eséllyel tudni fogja, hogy a beszélgetőtársa mit ért az „arra” alatt. A digitális asszisztensek számára azonban ez a feloldás komoly kihívást jelent, amire a ReALM megoldást adhat. A mérnökök a referenciák feloldásának összetett feladatát nyelvi modellezési problémává alakították, így az interakció során a rendszer képes lehet megérteni, ha a kijelzőn látható egyik elemre utal a felhasználó.

A ReALM szöveges megjelenítés segítségével rekonstruálja a kijelzőn látható elemeket. A kutatók azt találták, hogy ennek a megoldásnak a finomhangolásával az olyan nagy nyelvi modellek teljesítménye is felülmúlható, mint az OpenAI által fejlesztett GPT-4.

„Szerintem ez elég szar” – mondja a ChatGPT-ről Sam Altman, az OpenAI vezérigazgatója, és ha valaki, akkor ő tudja, miről beszél

Már a jövőbe tekint az OpenAI vezére, onnan nézve pedig a jelenlegi GPT-4 nyelvi modell már elavultnak fog hatni – a kritika mindenesetre erős, hiszen pont a cég jelenlegi csúcstermékét húzta le Sam Altman.

Az újdonság minden korábbinál jobban érti a képernyőn megjelenő tartalmakat és azok kontextusát, és ezek fényében jobban is reagálja le őket.

A vállalat fejlesztésének célja, hogy radikálisan javítsa a hangvezérelhető digitális asszisztensek (az Apple-nél: Siri) teljesítményét, azaz a parancsok megértését és az arra adott reakciókat. A ReALM a jelenleginél intuitívabb és természetesebb párbeszédet eredményezhet az eszközökkel.

Az Apple június 10-től 14-ig tartja a szokásos éves fejlesztői konferenciáját, a WWDC-t. Az előzetes utalások alapján az esemény egyik fő témája a mesterséges intelligencia lesz.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.