A Google DeepMind sokat tanult a tévézésből: minden eddiginél pontosabban, az embereknél majdnem négyszer jobban tud szájról olvasni.
A Google mesterséges intelligenciáját, a DeepMindot fejlesztő csapat, valamint az Oxfordi Egyetem kutatói a világ eddigi legpontosabb szájról olvasó programját hozták létre – számolt be róla a The Verge. A tudósok több ezer órányi BBC-felvételt nézettek végig a géppel, ami ezután képes volt 46,8 százalékos pontossággal elmondani, miről beszélnek a videókban. Hogy ez mekkora eredmény, azt jól mutatja, hogy ugyanezen a teszten a profi szájról olvasók csupán 12,4 százalékos pontosságot tudtak elérni.
Az Oxfordi Egyetem szakemberei nemrég már bemutattak egy szájról olvasó mesterséges intelligenciát, a LipNetet, ami 93,4 százalékos pontossággal dolgozott az emberek 52,3 százalékos pontosságával ellentétben. Annál a tesztnél azonban csak speciálisan rögzített felvételeket „láthatott” a gép, ahol sablonos mondatokat használtak az alanyok. Ehhez képest a DeepMind a BBC politikai műsorait nézte. Ezek a videók 118 ezer különböző mondatot és 17 500 szót tartalmaztak. Ehhez képest a LipNetnek a levetített felvételeken „csak” 51 különböző szót kellett felismernie.
A DeepMind kutatói szerint a fejlesztés számos területen alkalmazható, nagy segítséget jelenthet például a hallássérült embereknek a beszéd megértésében, a jövőben pedig elég lenne csak a kamerába artikulálni a parancsokat, a digitális asszisztens úgy is megértené.
Kérdés persze, hogy mi mindenre használható még ezen kívül a szájról olvasás. Sokak félelme, hogy ezzel egy újabb lehetőség nyílik az emberek megfigyelésére, a The Verge szerint azonban még mindig nagy különbség van egy HD-felbontású felvétel, és egy térfigyelő kamera képe között.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.