tech

Február elejétől lesz pontosabb a keresés.

Keressük Petőfit? Akkor nem mindegy, mit találunk. Ezért vezet be a napokban új szolgáltatást a nagy magyar internetes tudástár, az Arcanum. Mesterséges intelligencia segítségével felcímkézték a tulajdonneveket. Aki a költőt keresi, és meg is adja, hogy a személyre kíváncsi, az szerencsés esetben nem találkozik a nagy ember nevét viselő utcákkal vagy intézményekkel, mert utóbbiak más címkét viselnek.

Több lépcső vezetett idáig. Ezt ismertette csütörtökön egy szegedi számítógépes nyelvtechnológiai konferencián Biszak Sándor és Előd, a cég két vezetője (apa és fia). Mivel az újságok és folyóiratok szövegeiben a felhasználók leginkább tulajdonnevekre keresnek, először a tulajdonnevek felismerését kellett megoldani. Nem mindegy, időráfordítás szempontjából semmiképp, hogy például Lenti város vagy „a lenti ábra“ tölti meg a keresési eredményeket.

A nyelvtechnológia nem egyszerű dolog: a megoldások gyakran azoktól a nagy amerikai cégektől jönnek, amelyeket más – például adatvédelmi – okokból bírálatok szoktak érni. A tulajdonnév-felismeréshez a Google egy elég új – 2018-ban közzétett –, gépi tanuláshoz írott szoftverét használják. Ez a BERT, amelynek már a neve megértéséhez is szakértőnek kell lenni: Bidirectional Encoder Representations from Transformers. Sőt, nemcsak a nevéhez, mert – mint a mesterséges intelligencia esetében gyakori – a program mélyében zajló tanulási folyamatot az emberek egyelőre nem teljesen tudják követni.

A lényeg azonban, hogy BERT megtette azt, amit ekkora szövegtengerben (sok évtized magyar újságjaiban) ember nem tudott volna: kikereste a tulajdonneveket. Némi gyakorlás után pedig arra is képes volt, hogy a magyar szövegekben olyan címkékkel lássa el a szavakat, mint például: személy, hely, intézmény, dátum, esemény. Kilencféle címkét használnak. Biszak Előd ezzel illusztrálta a munkát:

Arcanum

Nem kevésbé látványos, ahogyan BERT jórészt javítani képes az optikai karakterfelismerés (OCR) hibáit. Az OCR készíti a kereshető szöveget a beszkennelt újságoldalak képéből, de az OCR-t megtévesztik a sorvégi elválasztások, a hasonló betűk (például u és n, i és l) és – főképp a régi újságokban – a ritkán szedett szavak. A mesterséges intelligencia ezen így tud segíteni:

Arcanum

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Mit tehetek én azért, hogy ne legyen baj a számítógépemen?

Magyar égre magyar csillagot? Jönnek az országonként különálló felhők?

És akkor megbénult 8,5 millió számítógép – Mennyivel van előrébb a világ most, és mi várható ezután?

DORA: biztonság, nem csak papíron

mesterséges intelligencia

Hogyan éljünk együtt a mesterséges intelligenciával? – 4. rész: Hogyan alakul az MI jövője?

Már hazudik is a mesterséges intelligencia, nehogy kikapcsolják

Aki jót akar magának, meg úgy mindenkinek, az egyelőre inkább kerülje a mesterséges intelligencia használatát

Hirdetés

Címkék

Még intelligensebb lesz a nagy magyar internetes tudástár, az Arcanum

Mit tehetek én azért, hogy ne legyen baj a számítógépemen?

Magyar égre magyar csillagot? Jönnek az országonként különálló felhők?

És akkor megbénult 8,5 millió számítógép – Mennyivel van előrébb a világ most, és mi várható ezután?

DORA: biztonság, nem csak papíron

Hogyan éljünk együtt a mesterséges intelligenciával? – 4. rész: Hogyan alakul az MI jövője?

Már hazudik is a mesterséges intelligencia, nehogy kikapcsolják

Aki jót akar magának, meg úgy mindenkinek, az egyelőre inkább kerülje a mesterséges intelligencia használatát

Ömlenek ránk a filmek, a sorozatok, a zenék, és mégis többet unatkozik az emberiség, mint eddig bármikor

Egy hete lett világbajnok, 36 évesen meghalt Paul Bamba profi bokszoló

És akkor januárban Novák Katalin a mozgás évének nyilvánította 2024-et, aztán történt egy s más

Leszállás közben szenvedett balesetet egy dél-koreai utasszállító, 179-en halhattak meg - fotók

Orosz külügyminiszter: Oroszország elveti a rövid és közepes hatótávolságú rakéták telepítésére javasolt türelmi időt

A német gazdaság és politika káoszban, az sem biztos, hogy az előrehozott választás segít

Elvitelre #99: A férfiakat családapaként gyakran az nyomja előre, hogy mennyi pénzt kell hazahozni

Elillant történelem és babonamentes tűzvédelem – megnéztük a felújított Notre Dame-ot

Megérkezett a 35 ezer forintos számítógép

Armando Iannucci: A Sztálin halálát Orbán Viktor és a hasonló politikusok miatt készítettem

Ködbe borul a fél ország, figyelmeztetést adtak ki

Niall Ferguson: Batman ideje jött el a világpolitikában