Az eddigieknél jóval hatékonyabb lett az a mesterséges intelligencia, ami az írott szöveget konvertálja emberi beszéddé.
Bár a kifinomult algoritmusoknak köszönhetően ma már egyre hatékonyabb az írott szöveg beszéddé konvertálása (vagyis a gépi felolvasás), egy gyenge pontja továbbra is van a történetnek: sok időt és energiát kell belefektetni egy ilyen rendszerbe, hogy a hangzás valóban természetesnek, ne pedig gépiesnek tűnjön. A Microsoft kínai kutatókkal közösen most erre talált egy sokkal hatékonyabb módszert.
A szakemberek egy olyan, az írott szöveget valósághű emberi beszéddé konvertáló mesterséges intelligenciát építettek, amihez mindösszesen csak 200 hangmintát – és annak leiratát – használták, a hangfájlok hosszúsága pedig összesen nagyjából 20 perc volt.
A rendszer az úgynevezett Transformer architektúrára épül, ami egy olyan mélytanulási hálózat, ami az agy neuronjait szimulálják. A kutatók erre küldték rá az írott szöveget, a mesterséges intelligencia pedig a háttérben futó megoldásnak köszönhetően komponenssel látták el, hogy a végeredmény még tisztább és emberibb legyen.
A végeredmény még így is "robotszerű", a kiejtett szavak azonban az esetek 99,84 százalékában tisztán érthetők. A módszer igazi áttörése viszont az, hogy rendkívül "egyszerű", így nem kell bonyolult – és drága – rendszer ahhoz, hogy valaki egy ilyen technológiát használjon. Aki kíváncsi a hangmintákra, itt tudja meghallgatni őket.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.