tech

A magyar nyelvet mindössze 15 millióan beszélik világszerte, így a cégek számára gyakran nem éri meg kifejleszteni a feldolgozásához szükséges szoftvert. A Pécsi Tudományegyetem (PTE) csapata felismerte ezt a problémát, és betanította saját modelljét erre a nyelvre. Viszonylag olcsón, és egész gyorsan.

A Pécsi Tudományegyetem 2019-ben lépett partnerkapcsolatra a Microsoft Mesterséges Intelligencia Tudásközpontjával, amely után kulcsfontosságú terület lett a mesterséges intelligencia és a felhőalapú oktatás – olvasható a redmondi cég oldalán megjelent közleményben.

Hogy a nagy mennyiségű magyar nyelvű adat kezelése könnyebb legyen, a PTE természetes nyelvfeldolgozási (NLP) módszerek kutatásába fogott. A megoldást egy magyar nyelvű, úgynevezett BERT-large modell (HILBERT) létrehozása jelentette, mely egy nyílt forráskódú gépi tanulásos keretrendszer. A modell célja a Microsoft szerint, hogy segítse a számítógépet a többféleképpen értelmezhető szövegrészek megértésében oly módon, hogy a szövegkörnyezetből kontextust épít.

A csapat az Azure mesterséges intelligencia használata mellett döntött a saját, magyar nyelvű BERT-large modelljük megalkotásához. “A Microsoft piacvezető a nyelvi modellek betanításának területén. Természetes, hogy a legjobb technológiát akartuk használni” – mondta Hajdu Róbert, az Alkalmazott Adattudományi és Mesterséges Intelligencia Központ volt tervezőmérnöke.

Ahelyett, hogy gyenge minőségű adatokat gyűjtöttek volna az internetről, a Nyelvtudományi Kutatóközpont szakemberei segítségével készítették elő az alapokat. Az Azure pedig mindent megkönnyített és felgyorsított.

A modell betanítására szintén gyors és költséghatékony megoldást kerestek: a Microsoft ONNX Runtime DeepSpeed könyvtárát választották a feladathoz, amit az Azure Machine Learning (AML) platformon futtattak. E platform segítségével hatékonyan tudtak haladni a mesterségesintelligencia-modellek építésével, munkába állításával, menedzsmentjével és nyomon követesével. Így a csapat közben olyan más feladatokra koncentrálhatott, mint az adatkezelés.

A modell működéséhez egy legalább 3,5 milliárd szót tartalmazó folyószöveg szükséges. Ezt az adatbázist a Nyelvtudományi Kutatóközpont, a projekt másik résztvevője többek között a Magyar Nemzeti Szótárból, online médiatárakból és az opensubtitles.org ingyenesen hozzáférhető filmfelirat-adatbázis magyar nyelvű anyagai közül gyűjtötte a csapat.

Habár a pandémia alatt mindannyian otthonról dolgoztak, a BERT-large betanítási folyamata az Azure-on semmilyen problémát nem okozott. „200 munkaóra alatt végeztünk. Ez a világon az eddigi legolcsóbb BERT-large. Kevesebb, mint 1000 euróba került” – mesélte Dr. Feldmann Ádám, a PTE Adattudományi és AI csoport vezetője. „Az ONNX Runtime nélkül a HILBERT-large modellünk betanítása 1500 órát, vagyis megközelítőleg két hónapot vett volna igénybe” – hívta fel a figyelmet.

A közlemény szerint a Pécsi Tudományegyetem BERT-large modellje jelentős lehetőségeket rejt magában az írott és beszélt szöveg feldolgozása, az intelligens keresés, az entitásérzékelés, a dokumentációs klasszifikáció terén. A HILBERT emellett

közreműködhet újabb, jobb teljesítményű chatbotok létrehozásában is.

Mindez pedig segítheti a magyarokat a könnyen érthető, releváns információkhoz való hozzáférésben, különösen a Covid–19 körüli félretájékoztatás elleni küzdelemben. Számos egészségügyi és kormányzati szereplő is érdeklődött már a HILBERT-large modell iránt – írták.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Mit tehetek én azért, hogy ne legyen baj a számítógépemen?

Magyar égre magyar csillagot? Jönnek az országonként különálló felhők?

És akkor megbénult 8,5 millió számítógép – Mennyivel van előrébb a világ most, és mi várható ezután?

DORA: biztonság, nem csak papíron

mesterséges intelligencia

"Nagy történelem" – a tudományos irányzat, amely évmilliárdokra visszamenve kutatja, milyen lesz az emberiség jövője

"Nem csak egy eszköz, hanem ügynök" – Harari elmagyarázza, miért veszélyesebb a mesterséges intelligencia az atombombánál is

Ezekben a hűtőkben hosszabban maradnak frissek az ételek, egy egész érdekes megoldással állt elő a Samsung

Hirdetés

Címkék

Pécsi kutatók 200 munkaóra alatt tanították meg egy rendszernek a magyar nyelvet

Mit tehetek én azért, hogy ne legyen baj a számítógépemen?

Magyar égre magyar csillagot? Jönnek az országonként különálló felhők?

És akkor megbénult 8,5 millió számítógép – Mennyivel van előrébb a világ most, és mi várható ezután?

DORA: biztonság, nem csak papíron

"Nagy történelem" – a tudományos irányzat, amely évmilliárdokra visszamenve kutatja, milyen lesz az emberiség jövője

"Nem csak egy eszköz, hanem ügynök" – Harari elmagyarázza, miért veszélyesebb a mesterséges intelligencia az atombombánál is

Ezekben a hűtőkben hosszabban maradnak frissek az ételek, egy egész érdekes megoldással állt elő a Samsung

„Nem engedhetném meg magamnak, hogy megvegyem a saját képeimet”

Már a ködről is összeesküvéselméleteket gyártanak

"Nem csak egy eszköz, hanem ügynök" – Harari elmagyarázza, miért veszélyesebb a mesterséges intelligencia az atombombánál is

"Nagy történelem" – a tudományos irányzat, amely évmilliárdokra visszamenve kutatja, milyen lesz az emberiség jövője

Mennyit költhet el Orbán Viktor az indiai családi útra?

Újabb részletek Orbán rejtélyes indiai útjáról: tuktuk-konvoj vitte a luxusszállodájába

Itt a szavazás eredménye: a HVG olvasói szerint ekkor lesz a választás

Gattyán-üzlettárs ájurvédikus gyógyító kísérte el Orbán Viktort Indiába

„Nem engedhetném meg magamnak, hogy megvegyem a saját képeimet”

Nekimegy a Coca-Colának Donald Trump oltásellenes leendő minisztere

Leváltatná Elon Musk a Brexit arcát a Reform UK párt éléről

“Pancserpuccsot” emlegetve Magyaron akart ütni, de Orbánt is eltalálta az Alapjogokért Központ vezetője