A magyar nyelvet mindössze 15 millióan beszélik világszerte, így a cégek számára gyakran nem éri meg kifejleszteni a feldolgozásához szükséges szoftvert. A Pécsi Tudományegyetem (PTE) csapata felismerte ezt a problémát, és betanította saját modelljét erre a nyelvre. Viszonylag olcsón, és egész gyorsan.
A Pécsi Tudományegyetem 2019-ben lépett partnerkapcsolatra a Microsoft Mesterséges Intelligencia Tudásközpontjával, amely után kulcsfontosságú terület lett a mesterséges intelligencia és a felhőalapú oktatás – olvasható a redmondi cég oldalán megjelent közleményben.
Hogy a nagy mennyiségű magyar nyelvű adat kezelése könnyebb legyen, a PTE természetes nyelvfeldolgozási (NLP) módszerek kutatásába fogott. A megoldást egy magyar nyelvű, úgynevezett BERT-large modell (HILBERT) létrehozása jelentette, mely egy nyílt forráskódú gépi tanulásos keretrendszer. A modell célja a Microsoft szerint, hogy segítse a számítógépet a többféleképpen értelmezhető szövegrészek megértésében oly módon, hogy a szövegkörnyezetből kontextust épít.
A csapat az Azure mesterséges intelligencia használata mellett döntött a saját, magyar nyelvű BERT-large modelljük megalkotásához. “A Microsoft piacvezető a nyelvi modellek betanításának területén. Természetes, hogy a legjobb technológiát akartuk használni” – mondta Hajdu Róbert, az Alkalmazott Adattudományi és Mesterséges Intelligencia Központ volt tervezőmérnöke.
Ahelyett, hogy gyenge minőségű adatokat gyűjtöttek volna az internetről, a Nyelvtudományi Kutatóközpont szakemberei segítségével készítették elő az alapokat. Az Azure pedig mindent megkönnyített és felgyorsított.
A modell betanítására szintén gyors és költséghatékony megoldást kerestek: a Microsoft ONNX Runtime DeepSpeed könyvtárát választották a feladathoz, amit az Azure Machine Learning (AML) platformon futtattak. E platform segítségével hatékonyan tudtak haladni a mesterségesintelligencia-modellek építésével, munkába állításával, menedzsmentjével és nyomon követesével. Így a csapat közben olyan más feladatokra koncentrálhatott, mint az adatkezelés.
A modell működéséhez egy legalább 3,5 milliárd szót tartalmazó folyószöveg szükséges. Ezt az adatbázist a Nyelvtudományi Kutatóközpont, a projekt másik résztvevője többek között a Magyar Nemzeti Szótárból, online médiatárakból és az opensubtitles.org ingyenesen hozzáférhető filmfelirat-adatbázis magyar nyelvű anyagai közül gyűjtötte a csapat.
Habár a pandémia alatt mindannyian otthonról dolgoztak, a BERT-large betanítási folyamata az Azure-on semmilyen problémát nem okozott. „200 munkaóra alatt végeztünk. Ez a világon az eddigi legolcsóbb BERT-large. Kevesebb, mint 1000 euróba került” – mesélte Dr. Feldmann Ádám, a PTE Adattudományi és AI csoport vezetője. „Az ONNX Runtime nélkül a HILBERT-large modellünk betanítása 1500 órát, vagyis megközelítőleg két hónapot vett volna igénybe” – hívta fel a figyelmet.
A közlemény szerint a Pécsi Tudományegyetem BERT-large modellje jelentős lehetőségeket rejt magában az írott és beszélt szöveg feldolgozása, az intelligens keresés, az entitásérzékelés, a dokumentációs klasszifikáció terén. A HILBERT emellett
közreműködhet újabb, jobb teljesítményű chatbotok létrehozásában is.
Mindez pedig segítheti a magyarokat a könnyen érthető, releváns információkhoz való hozzáférésben, különösen a Covid–19 körüli félretájékoztatás elleni küzdelemben. Számos egészségügyi és kormányzati szereplő is érdeklődött már a HILBERT-large modell iránt – írták.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.