Az előrejelzések szerint már nincs olyan sok adat, amellyel jó minőségű mesterséges intelligenciát lehetne fejleszteni. Ötlet van arra, hogyan lehetne megoldani a helyzetet, de az kérdéses, hogy mikorra sikerülhet.
Ahogy a mesterséges intelligencia (MI) egyre népszerűbbé válik, a kutatók egyre inkább arra figyelmeztetnek, hogy az iparág kifogyhat abból a (minőségi) adatkészletből, melyen ezeket a rendszereket be lehet tanítani. Ez nemcsak lelassítja az MI-modellek – különösen a nagy nyelvi modellek – növekedését, de
akár az MI-forradalmat is letérítheti a pályájáról.
De miért jelent problémát az adatok esetleges hiánya, tekintve, hogy mennyi új keletkezik folyamatosan? És van-e mód a kockázat kezelésére? Erről írt a The Conversationön megjelent cikkében Rita Matulionyte, az ausztrál Macquarie Egyetem tudósa.
Ami biztos: sok adatra van szükségünk a hatékony, pontos és kiváló minőségű algoritmusok betanításához. A ChatGPT-t például 570 GB szöveges adaton, azaz körülbelül 300 milliárd szón képezték ki. Hasonló a helyzet a stabil diffúzió (Stable Diffusion) – ez egy gépi tanulási modell – esetében, melyet az 5,8 milliárd kép-szöveg párból álló LIAON-5B adatkészleten tanítanak be. Ilyen algoritmus dolgozik az olyan képgeneráló MI-k mögött, mint a DALL-E, a Lensa vagy a Midjourney.
HVG AI 2 - mesterséges intelligencia
Megjelent a HVG mesterséges intelligenciával foglalkozó kiadványának második száma.
Ezek mind jó minőségű adatok, ami azért fontos, mert ha az adatkészlet rossz, akkor az MI is silány lesz. A rossz minőségű adatok – például Facebook-bejegyzések, vagy elmosódott képek – egyszerűen nem elegendők a tanításhoz.
A közösségi oldalakról vett bejegyzések szövegei elfogultak lehetnek, hamis információt vagy illegális anyagot tartalmazhat jelentős mennyiségben. Ezeket a modell azután reprodukálná. (Például ez történt akkor, amikor a Microsoft próbálta a Twitter-bejegyzésekkel kiképezni a rendszerét: az MI nőgyűlölő és rasszista lett.)
Ez az oka annak, hogy az MI fejlesztői csak kiváló minőségű adatokkal dolgoznak. Ilyenek lehetnek a könyvek, tudományos cikkek, Wikipédia-oldalak, vagy bizonyos megbízhatónak minősített – például újságírói elvek mentén készülő – weboldalakról származó tartalmak. A Google digitális asszisztensét 11 ezer romantikus regényen képezték ki, amit a Smashwords nevű oldalról vettek át.
Ezek alapján joggal merülhet fel a kérdés: van elég adatunk?
Turbót kapott a ChatGPT mögötti mesterséges intelligencia, sokkal többre képes új nyelvi modellt jelentett be az OpenAI
Hétfőn tartotta nagyszabású fejlesztői konferenciáját a ChatGPT mögött álló OpenAI. Ott mutatták be az új, GPT-4 Turbo nyelvi modellt is. Ez, fedélzetén megannyi újítással és fejlesztéssel, már elérhető a fejlesztők számára.
Matulionyte szerint az MI fejlesztői egyre nagyobb adatkészleten tanítják a rendszereiket, ezért tudnak olyan eszközök megjelenni, mint a ChatGPT vagy a Dall-E 3. Ugyanakkor a kutatások azt mutatják, hogy az online adatállományok sokkal lassabban nőnek, mint amire szükség lenne.
Egy, az arXiv preprint szerveren 2022-ben megjelent tanulmányban a kutatók azt jósolták, hogy akár már 2026 előtt kifogyunk a jó minőségű szöveges adatokból, ha a jelenlegi képzési trendek folytatódnak. Becslések szerint az alacsony minőségű nyelvi adatok valamikor 2030 és 2050 között, a gyenge minőségű képadatok pedig 2030 és 2060 között merülnek ki.
A PwC becslései szerint a mesterséges intelligencia 2030-ig akár 15,7 billió amerikai dollárral járulhat hozzá a világgazdasághoz. A használható adatok hiánya azonban csökkentheti a fejlesztés ütemét.
Matulionyte ugyanakkor arra is emlékeztet: mindezek ellenére a helyzet talán nem olyan rossz, mint elsőre tűnik. Egyelőre sok ismeretlen tényező van azzal kapcsolatban, hogy az MI-modellek hogyan fognak fejlődni, és van néhány módszer arra, hogy kezeljük az adathiány jelentette esetleges kockázatot.
Kipróbálták, és 100 százalékban kiszúrja az új mesterséges intelligencia, ha egy dolgozatba besegített a ChatGPT
A Kansasi Egyetem kutatói ahelyett, hogy általános megoldást kerestek volna a mesterséges intelligencia kiszűrésére a tudományos munkákban, olyan algoritmust fejlesztettek, ami a kémiával kapcsolatos cikkekre fókuszál. Az eredmény lenyűgöző.
Az egyik lehetőség, hogy az algoritmusok hatékonyabban használják fel az adatokat. A jövőben valószínűleg kevesebb adat is elég lehet a nagy modellek képzéséhez – ezzel mindenképpen nyerni lehet még egy kis időt. És egyébként az MI karbonlábnyoma is csökkenne.
A másik lehetőség, hogy szintetikus adatokat használnak, vagyis a fejlesztők saját maguk állítják össze az adatkészletet, amivel az MI-t tanítani lehet. Emellett szintén egy lehetőség, hogy azokat az adatokat, szövegeket használják fel a modellek, amik még az internet előtt jelentek meg. Ehhez a nagy tudományos kiadókkal kell megegyezni.
Hogy melyik lesz a járható út, egyelőre nem tudni. Az viszont biztos, hogy valamit gyorsan kell lépni az ügyben, hogy az MI fejlődése ne kerüljön veszélybe.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.