tech

Lenyűgöző teljesítményt mutat az OpenAI új, mesterséges intelligencián alapuló hangklónozó eszköze. A Voice Engine aggályokat is felvet, annyira élethűen utánozza egy ember hangját.

Az OpenAI újdonsága egy olyan új modell, amely képes emberi hangon felolvasni szövegeket (sőt le is fordítja azokat). A Voice Engine nevű, 2022 óta fejlesztett modellnek ugyanis most már elég egyetlen 15 másodperces hangminta ahhoz, hogy természetes hangzású beszédet generáljon a mintát adó hangja alapján.

A szöveg-beszéd modell jelenleg korlátozott próbaidőszakban van néhány tesztelővel – a hozzáféréssel rendelkező vállalatok közé tartozik az Age of Learning oktatástechnológiai vállalat, a HeyGen vizuális történetmesélés platform, a Dimagi egészségügyiszoftver-gyártó, a Livox AI kommunikációs alkalmazásokat létrehozó és a Lifespan egészségügyi rendszer. Az OpenAI, a politikai döntéshozóktól és oktatóktól kapott visszajelzések után, inkább az óvatos megközelítést választotta a széles körű kiadás helyett, különösen olyan kényes időszakban, mint a mostani (amerikai és európai) választási év.

Hasonló megoldások persze régóta elérhetők, ám az OpenAI-féle Voice Engine azoknál sokkal élethűbb eredményt produkál. Ennek bizonyítékai meghallgathatók a vállalat oldalán közzétett demókban.

A Google tavaly olyan szolgáltatást mutatott be, amely 3 másodpercnyi mintából képes hanggenerálásra, szintén elég meggyőző, de azért egy picit gépi beszédnek hangzó eredménnyel.

3 mp-ig hallgatózik a Google mesterséges intelligenciája, aztán megszólal a beszélő hangján – de más nyelven
Valahol fantasztikus, valahol ijesztő a Google nyelvi modelljének azon képessége, hogy képes a beszélő hangján megszólaltatni egy hangzó szöveg fordítását. Érdemes meghallgatni, milyen eredménnyel dolgozik.

Az OpenAI néhány korai felhasználási példát is említ a Voice Engine alkalmazására. Segítséget nyújthat például az olvasásban az olvasni nem tudóknak, köztük a gyerekeknek a természetesnek ható hangokon keresztül, amelyek a beszélők sokkal szélesebb körét képviselhetik, mint ami az előre beállított hangokkal lehetséges. A modell emellett segíthet tartalmak, például videók és podcastok fordításában, hogy az alkotók a saját hangjukon minél többeket érhessenek el a világon, akár a hallgatók anyanyelvén (erre egyébként már a Spotify is felfigyelt). Terápiás alkalmazások is elképzelhetők olyan személyek számára, akiknek az állapota befolyásolja a beszédet és speciális tanulási igényeik vannak. Emellett az új rendszer segíthet a degeneratív beszédbetegségben szenvedőknek a hangjuk visszanyerésében.

Az OpenAI persze azzal is tisztában van, hogy az emberi hangra emlékeztető beszéd generálása komoly kockázatokkal jár, ezért is mondtak le a széles körű bevezetésről. A vállalat partnerei állítólag megállapodtak abban, hogy nem fogják használni a Voice Engine-t mások megszemélyesítésére a beleegyezésük nélkül. Ez azt is megköveteli, hogy a partnerek megkapják az eredeti beszélő „kifejezett és tájékozott beleegyezését”, ne építsenek módokat az egyes felhasználók számára saját hangjuk létrehozására, és közöljék a hallgatókkal, hogy a hangokat mesterséges intelligencia generálja. Az OpenAI „audiovízjelet” is hozzáadott a hangklipekhez, hogy nyomon lehessen követni azok eredetét.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Mit tehetek én azért, hogy ne legyen baj a számítógépemen?

Magyar égre magyar csillagot? Jönnek az országonként különálló felhők?

És akkor megbénult 8,5 millió számítógép – Mennyivel van előrébb a világ most, és mi várható ezután?

DORA: biztonság, nem csak papíron

mesterséges intelligencia

Változtat az Apple az álhíreket mutató rendszerén, de nem úgy, mint elsőre gondolná

Havi 80 000 forint a ChatGPT legdrágább csomagja, de Sam Altman szerint ez túl kevés

Valós időben olvassa a gondolatokat egy új kínai chip, amit az agyba kell beültetni

Hirdetés

Címkék

15 mp-ig hallgat, utána bárki hangján megszólal az új MI, és persze bármit a szájába lehet adni

3 mp-ig hallgatózik a Google mesterséges intelligenciája, aztán megszólal a beszélő hangján – de más nyelven

Mit tehetek én azért, hogy ne legyen baj a számítógépemen?

Magyar égre magyar csillagot? Jönnek az országonként különálló felhők?

És akkor megbénult 8,5 millió számítógép – Mennyivel van előrébb a világ most, és mi várható ezután?

DORA: biztonság, nem csak papíron

Változtat az Apple az álhíreket mutató rendszerén, de nem úgy, mint elsőre gondolná

Havi 80 000 forint a ChatGPT legdrágább csomagja, de Sam Altman szerint ez túl kevés

Valós időben olvassa a gondolatokat egy új kínai chip, amit az agyba kell beültetni

Az autoriter bábjátékos és Sulyok, a báb

De miért folyik az orrunk a hidegben?

Rogán Antal korrupció miatt felkerült az Egyesült Államok szankciós listájára

Rogán Antal hosszú vizsgálat után vetetheti le magát a szankciós listáról

Pressman: „A magyar vezető kormánytisztviselők túl sokáig használták arra a hatalmi pozíciójukat, hogy saját magukat és családjukat gazdagítsák”

Az amerikai külügy szerint Rogán jelképezi az állam foglyul ejtését

Itt a kormány válasza Rogán szankciós listára kerülésére: pitiáner bosszú, de majd az új elnök leveszi

Magyar Péter: Rogán Antal felelősségre vonása nem külföldi hatalmak dolga

Drakula feminista lett, és ezt mindenki élvezi – Nosferatu-kritika

„Azt mondta, el kellene mennem Indiába” – Orbán ájurvédikus gyógyító ismerőse Keralába közvetít ki magyar betegeket

Az iskolázatlan, alkoholista zseni, aki a fél világgal megszerettette az állatokat – száz éve született Gerald Durrell

Hamvay Péter: Fábry Sándornak igaza van