Tech Bedő Iván 2021. február. 01. 11:03

Még intelligensebb lesz a nagy magyar internetes tudástár, az Arcanum

Bedő Iván
Szerzőnk Bedő Iván

Február elejétől lesz pontosabb a keresés.

Keressük Petőfit? Akkor nem mindegy, mit találunk. Ezért vezet be a napokban új szolgáltatást a nagy magyar internetes tudástár, az Arcanum. Mesterséges intelligencia segítségével felcímkézték a tulajdonneveket. Aki a költőt keresi, és meg is adja, hogy a személyre kíváncsi, az szerencsés esetben nem találkozik a nagy ember nevét viselő utcákkal vagy intézményekkel, mert utóbbiak más címkét viselnek.

Több lépcső vezetett idáig. Ezt ismertette csütörtökön egy szegedi számítógépes nyelvtechnológiai konferencián Biszak Sándor és Előd, a cég két vezetője (apa és fia). Mivel az újságok és folyóiratok szövegeiben a felhasználók leginkább tulajdonnevekre keresnek, először a tulajdonnevek felismerését kellett megoldani. Nem mindegy, időráfordítás szempontjából semmiképp, hogy például Lenti város vagy „a lenti ábra“ tölti meg a keresési eredményeket.

A nyelvtechnológia nem egyszerű dolog: a megoldások gyakran azoktól a nagy amerikai cégektől jönnek, amelyeket más – például adatvédelmi – okokból bírálatok szoktak érni. A tulajdonnév-felismeréshez a Google egy elég új – 2018-ban közzétett –, gépi tanuláshoz írott szoftverét használják. Ez a BERT, amelynek már a neve megértéséhez is szakértőnek kell lenni: Bidirectional Encoder Representations from Transformers. Sőt, nemcsak a nevéhez, mert – mint a mesterséges intelligencia esetében gyakori – a program mélyében zajló tanulási folyamatot az emberek egyelőre nem teljesen tudják követni.

A lényeg azonban, hogy BERT megtette azt, amit ekkora szövegtengerben (sok évtized magyar újságjaiban) ember nem tudott volna: kikereste a tulajdonneveket. Némi gyakorlás után pedig arra is képes volt, hogy a magyar szövegekben olyan címkékkel lássa el a szavakat, mint például: személy, hely, intézmény, dátum, esemény. Kilencféle címkét használnak. Biszak Előd ezzel illusztrálta a munkát:

Arcanum

Nem kevésbé látványos, ahogyan BERT jórészt javítani képes az optikai karakterfelismerés (OCR) hibáit. Az OCR készíti a kereshető szöveget a beszkennelt újságoldalak képéből, de az OCR-t megtévesztik a sorvégi elválasztások, a hasonló betűk (például u és n, i és l) és – főképp a régi újságokban – a ritkán szedett szavak. A mesterséges intelligencia ezen így tud segíteni:

Arcanum

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Gazdaság Sztojcsev Iván 2024. december. 29. 07:00

És akkor januárban Novák Katalin a mozgás évének nyilvánította 2024-et, aztán történt egy s más

Egész véletlenül tökéletesen beletrafált egykori köztársasági elnökünk, amikor elrendelte, hogy 2024 legyen a mozgás éve: mozgott idén a pártrendszer (egész váratlan irányokba), a GDP-növekedési előrejelzés (magasból a nulla közelébe), a forintárfolyam (hajaj), a világpolitika, és maga Novák Katalin is, jó messzire. Megnéztük a gazdaság és a vállalkozás rovatunkból az év legolvasottabb cikkeinek listáját, és most megmutatjuk, mi érdekelte idén önöket a legjobban.