A techmilliárdos szerint a szintetikus adatokra támaszkodó önálló tanulásra kellene áttérni, bár egyesek arra figyelmeztetnek, hogy ez a nyelvi modellek összeomlását okozhatja.
A mesterséges intelligenciával foglalkozó vállalatok kifogytak a modelljeik betanításához szükséges adatokból, és “kimerítették” az emberi tudás összességét – állítja Elon Musk.
A világ leggazdagabb embere szerint a technológiai cégeknek a “szintetikus” adatokhoz – vagyis a mesterséges intelligencia modellek által létrehozott tartalomhoz – kell fordulniuk az új rendszerek építéséhez és finomhangolásához – számolt be a The Guardian.
A vállalkozó szerint a felhasználható emberi tudás kimerülése lényegében már tavaly megtörtént.
Musk egyébként 2023-ban indította el saját AI-vállalkozását, az xAI-t.
Az olyan AI-modelleket, mint a ChatGPT chatbotot működtető GPT-4o modellt, az internetről származó hatalmas mennyiségű adaton “képzik ki”, ahol gyakorlatilag megtanulják felismerni az információkban lévő mintákat – így például képesek megjósolni a következő szót egy mondatban.
A közösségi médiaplatformján, az X-en élőben közvetített interjúban Musk azt mondta, hogy az új modellek képzéséhez szükséges forráshiány ellen az “egyetlen mód” az, ha az AI által létrehozott szintetikus adatokra térnek át. Az adathalmazok kimerülésére utalva azt mondta: “Az egyetlen mód a szintetikus adatokkal való kiegészítés, ahol … a gép egyfajta esszét ír, vagy előáll egy tézissel, majd osztályozza magát, és … végigmegy ezen az öntanulási folyamaton”.
A Meta, a Facebook és az Instagram tulajdonosa szintetikus adatokat használt a legnagyobb AI-modelljük, a Llama finomhangolásához, míg a Microsoft szintén mesterséges intelligenciával előállított tartalmakat használt a Phi-4 modelljéhez. A Google és a ChatGPT mögött álló OpenAI szintén használt szintetikus adatokat mesterséges intelligenciával kapcsolatos munkájuk során.
Musk azonban arra is figyelmeztetett, hogy a AI-modellek az a szokása, hogy hallucinálnak, veszélyt jelent a szintetikus adatfeldolgozás folyamatára.
A Mark Pennel, a Stagwell reklámcsoport elnökével az X-en élőben közvetített interjúban azt mondta, hogy a hallucinációk “kihívássá” tették a mesterséges anyag felhasználásának folyamatát, mert “honnan tudod, hogy … hallucinálta-e a választ, vagy ez egy valódi válasz”.
A lap kiemelte, hogy Andrew Duncan, a brit Alan Turing Intézet mesterséges intelligenciával foglalkozó igazgatója szerint Musk megjegyzései egybecsengenek egy nemrégiben megjelent tudományos munkával, amely szerint a mesterséges intelligencia modellekhez nyilvánosan elérhető adatok már 2026-ban elfogyhatnak. Hozzátette, hogy a szintetikus adatokra való túlzott támaszkodás a “modellösszeomlás” kockázatát rejti magában, amely a modellek kimeneteinek minőségromlására utal.
“Amikor egy modellt szintetikus adatokkal kezdünk etetni, romló eredményt kapunk” – mondta, ami azzal a kockázattal jár, hogy a kimenetek nemcsak tévesek, de elfogultak és kreativitás nélküliek lesznek.
Duncan hozzátette, hogy az AI által generált online tartalom növekedése azt is eredményezi, hogy az ilyen anyagok már most is bekerülnek az AI-adatok képzési készleteibe.
A magas minőségű adatok és az azok feletti ellenőrzés a mesterséges intelligenciával kapcsolatos jogi csatározások legfontosabb pontja. Az OpenAI tavaly elismerte, hogy lehetetlen lenne olyan eszközöket létrehozni, mint a ChatGPT a szerzői jogvédelem alatt álló anyagokhoz való hozzáférés nélkül, míg a kreatív iparágak és a kiadók kártérítést követelnek anyagaik modellképzési folyamatban való felhasználásáért.