tech

Az előrejelzések szerint már nincs olyan sok adat, amellyel jó minőségű mesterséges intelligenciát lehetne fejleszteni. Ötlet van arra, hogyan lehetne megoldani a helyzetet, de az kérdéses, hogy mikorra sikerülhet.

Ahogy a mesterséges intelligencia (MI) egyre népszerűbbé válik, a kutatók egyre inkább arra figyelmeztetnek, hogy az iparág kifogyhat abból a (minőségi) adatkészletből, melyen ezeket a rendszereket be lehet tanítani. Ez nemcsak lelassítja az MI-modellek – különösen a nagy nyelvi modellek – növekedését, de

akár az MI-forradalmat is letérítheti a pályájáról.

De miért jelent problémát az adatok esetleges hiánya, tekintve, hogy mennyi új keletkezik folyamatosan? És van-e mód a kockázat kezelésére? Erről írt a The Conversationön megjelent cikkében Rita Matulionyte, az ausztrál Macquarie Egyetem tudósa.

Ami biztos: sok adatra van szükségünk a hatékony, pontos és kiváló minőségű algoritmusok betanításához. A ChatGPT-t például 570 GB szöveges adaton, azaz körülbelül 300 milliárd szón képezték ki. Hasonló a helyzet a stabil diffúzió (Stable Diffusion) – ez egy gépi tanulási modell – esetében, melyet az 5,8 milliárd kép-szöveg párból álló LIAON-5B adatkészleten tanítanak be. Ilyen algoritmus dolgozik az olyan képgeneráló MI-k mögött, mint a DALL-E, a Lensa vagy a Midjourney.

HVG AI 2 - mesterséges intelligencia
Megjelent a HVG mesterséges intelligenciával foglalkozó kiadványának második száma.

Ezek mind jó minőségű adatok, ami azért fontos, mert ha az adatkészlet rossz, akkor az MI is silány lesz. A rossz minőségű adatok – például Facebook-bejegyzések, vagy elmosódott képek – egyszerűen nem elegendők a tanításhoz.

A közösségi oldalakról vett bejegyzések szövegei elfogultak lehetnek, hamis információt vagy illegális anyagot tartalmazhat jelentős mennyiségben. Ezeket a modell azután reprodukálná. (Például ez történt akkor, amikor a Microsoft próbálta a Twitter-bejegyzésekkel kiképezni a rendszerét: az MI nőgyűlölő és rasszista lett.)

Ez az oka annak, hogy az MI fejlesztői csak kiváló minőségű adatokkal dolgoznak. Ilyenek lehetnek a könyvek, tudományos cikkek, Wikipédia-oldalak, vagy bizonyos megbízhatónak minősített – például újságírói elvek mentén készülő – weboldalakról származó tartalmak. A Google digitális asszisztensét 11 ezer romantikus regényen képezték ki, amit a Smashwords nevű oldalról vettek át.

Ezek alapján joggal merülhet fel a kérdés: van elég adatunk?

Turbót kapott a ChatGPT mögötti mesterséges intelligencia, sokkal többre képes új nyelvi modellt jelentett be az OpenAI
Hétfőn tartotta nagyszabású fejlesztői konferenciáját a ChatGPT mögött álló OpenAI. Ott mutatták be az új, GPT-4 Turbo nyelvi modellt is. Ez, fedélzetén megannyi újítással és fejlesztéssel, már elérhető a fejlesztők számára.

Matulionyte szerint az MI fejlesztői egyre nagyobb adatkészleten tanítják a rendszereiket, ezért tudnak olyan eszközök megjelenni, mint a ChatGPT vagy a Dall-E 3. Ugyanakkor a kutatások azt mutatják, hogy az online adatállományok sokkal lassabban nőnek, mint amire szükség lenne.

Egy, az arXiv preprint szerveren 2022-ben megjelent tanulmányban a kutatók azt jósolták, hogy akár már 2026 előtt kifogyunk a jó minőségű szöveges adatokból, ha a jelenlegi képzési trendek folytatódnak. Becslések szerint az alacsony minőségű nyelvi adatok valamikor 2030 és 2050 között, a gyenge minőségű képadatok pedig 2030 és 2060 között merülnek ki.

A PwC becslései szerint a mesterséges intelligencia 2030-ig akár 15,7 billió amerikai dollárral járulhat hozzá a világgazdasághoz. A használható adatok hiánya azonban csökkentheti a fejlesztés ütemét.

Matulionyte ugyanakkor arra is emlékeztet: mindezek ellenére a helyzet talán nem olyan rossz, mint elsőre tűnik. Egyelőre sok ismeretlen tényező van azzal kapcsolatban, hogy az MI-modellek hogyan fognak fejlődni, és van néhány módszer arra, hogy kezeljük az adathiány jelentette esetleges kockázatot.

Kipróbálták, és 100 százalékban kiszúrja az új mesterséges intelligencia, ha egy dolgozatba besegített a ChatGPT
A Kansasi Egyetem kutatói ahelyett, hogy általános megoldást kerestek volna a mesterséges intelligencia kiszűrésére a tudományos munkákban, olyan algoritmust fejlesztettek, ami a kémiával kapcsolatos cikkekre fókuszál. Az eredmény lenyűgöző.

Az egyik lehetőség, hogy az algoritmusok hatékonyabban használják fel az adatokat. A jövőben valószínűleg kevesebb adat is elég lehet a nagy modellek képzéséhez – ezzel mindenképpen nyerni lehet még egy kis időt. És egyébként az MI karbonlábnyoma is csökkenne.

A másik lehetőség, hogy szintetikus adatokat használnak, vagyis a fejlesztők saját maguk állítják össze az adatkészletet, amivel az MI-t tanítani lehet. Emellett szintén egy lehetőség, hogy azokat az adatokat, szövegeket használják fel a modellek, amik még az internet előtt jelentek meg. Ehhez a nagy tudományos kiadókkal kell megegyezni.

Hogy melyik lesz a járható út, egyelőre nem tudni. Az viszont biztos, hogy valamit gyorsan kell lépni az ügyben, hogy az MI fejlődése ne kerüljön veszélybe.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Mit tehetek én azért, hogy ne legyen baj a számítógépemen?

Magyar égre magyar csillagot? Jönnek az országonként különálló felhők?

És akkor megbénult 8,5 millió számítógép – Mennyivel van előrébb a világ most, és mi várható ezután?

DORA: biztonság, nem csak papíron

mesterséges intelligencia

4iG Group

MI a vállalatoknál: láthatatlan segítő vagy biztonsági rés?

A ChatGPT szinte hibátlanul felismeri a leggyakoribb bőrproblémákat

Képernyő nélküli telefonon dolgozhat az Apple korábbi sztártervezője, az OpenAI venné meg a fejlesztőcéget

Hirdetés

Címkék

Van egy kis gond: olyan gyorsan tanul a mesterséges intelligencia, hogy 2026-ra már nem lesz mivel tovább tanítani

HVG AI 2 - mesterséges intelligencia

Turbót kapott a ChatGPT mögötti mesterséges intelligencia, sokkal többre képes új nyelvi modellt jelentett be az OpenAI

Kipróbálták, és 100 százalékban kiszúrja az új mesterséges intelligencia, ha egy dolgozatba besegített a ChatGPT

Mit tehetek én azért, hogy ne legyen baj a számítógépemen?

Magyar égre magyar csillagot? Jönnek az országonként különálló felhők?

És akkor megbénult 8,5 millió számítógép – Mennyivel van előrébb a világ most, és mi várható ezután?

DORA: biztonság, nem csak papíron

MI a vállalatoknál: láthatatlan segítő vagy biztonsági rés?

A ChatGPT szinte hibátlanul felismeri a leggyakoribb bőrproblémákat

Képernyő nélküli telefonon dolgozhat az Apple korábbi sztártervezője, az OpenAI venné meg a fejlesztőcéget

Vodkát iszik és Cheetost zabál Putyin jó barátja, aki halhatatlanná vált

A kriptopiacra is átcsaptak a tőzsdei pánik hullámai, féléves mélyponton a Bitcoin

A Petőfi híd lábánál igazoltatnak, a Szabadság hídnál sorfalat állnak a rendőrök – élő közvetítés Hadházyék hajnalig tartó tüntetéséről

„Nem úgy fekszel le, mint Magyarországon, hogy gyomorgörcsben vagy akkor is, ha jól élsz” – így érzik magukat a Spanyolországba települt magyarok

A Kínával szembeni vámok szerdán legalább 104 százalékra emelkednek – közölte a Fehér Ház

Elon Musk arra kérte Trumpot, vonja vissza a vámháborús döntését

ZDF: Oroszországban már azelőtt rákerestek egy németországi késelésre, hogy az megtörtént volna

Trump ostoba, de ez a legkisebb probléma

Ne a csordát kövessék – így kerülhetik el a befektetők a mentális csapdákat

Az ügyvivő amerikai nagykövet szerint nem lesz több aktivizmus, de az orosz energia miatt odaszúrt a magyar kormánynak

Van valami szívszorító abban, ahogy Thomas Müllert kirakja a Bayern München

Újra eladósorba került az egykori Dunaferr, az építményeket leválasztják a telkekről