Tech HVG 2024. november. 26. 17:03

Elkészült a „hangok svájci bicskája”, bármilyen szövegből hangot készít az Nvidia

Fugatto néven mutatta be az Nvidia azt a mesterséges intelligenciát, amit a cég szerint számos területen lehet majd hasznosítani.

Újfajta generatív mesterségesintelligencia-modellt mutatott be nemrég az Nvidia, amit nemes egyszerűséggel csak a hangok svájci bicskájaként emleget. A Fugatto (Foundational Generative Audio Transformer Opus 1) nevű fejlesztésre akasztott jelző az Nvidia videója alapján valóban megérdemelt, a modell ugyanis szöveges parancsokból képes zenét, beszédet vagy hangeffektet generálni. Emellett arra is képes, hogy már meglévő zenét vagy hangot módosítson.

A cég közlése szerint a Fugattot egy nemzetközi csapat fejlesztette, így a beszédet többféle akcentussal is le tudja generálni, és többféle nyelven is ért az eszköz. „Olyan modellt akartunk létrehozni, amely úgy érti és generálja a hangot, mint az emberek” – mondta Rafael Valle, a projekt egyik kutatója.

A vállalat szerint a zenei producerek a technológia segítségével könnyen és gyorsan állíthatnak elő alapot egy dalötlethez, amit aztán tovább tudnak szerkeszteni, hogy kipróbálhassák, miként szólnak a különböző stílusok, hangok és hangszerek a dalban.

De az eszköz azoknak is hasznos lehet, akik nyelvet tanulnának, a Fugattóval ugyanis a nyelvtanulási eszközökhöz tudnak új anyagokat előállítani, míg a videójátékok fejlesztői előre rögzített hangokat tehetnek a játékokba, amelyek aztán azok alapján tűnnek fel, hogy az adott játékos milyen döntést hozott egy helyzetben.

Audio AI Fugatto Generates Sound from Text | NVIDIA Research

While some AI models can compose a song or modify a voice, none have the dexterity of the new offering, from #NVIDIAResearch. Fugatto (short for Foundational Generative Audio Transformer Opus 1), generates or transforms any mix of music, voices and sounds described with prompts using any combination of text and audio files.

Az NVIDIA nem közölte, hogy a nyilvánosság számára mikor válik elérhetővé a Fugatto, vagy, hogy egyáltalán elérhető lesz-e. Ugyanakkor a modell nem az első olyan generatív mesterséges intelligencia, amely szöveges üzenetekből hangokat tud létrehozni. A Meta korábban kiadott egy nyílt forráskódú eszközt, amely szöveges leírásokból képes hangokat létrehozni. A Google-nak van saját MusicLM nevű szöveg-zene MI-ja, amit az AI Test Kitchenön keresztül lehet elérni.

Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.

Élet+Stílus Galicza Dorina 2024. december. 28. 20:00

Elillant történelem és babonamentes tűzvédelem – megnéztük a felújított Notre Dame-ot

Párizs székesegyháza fényesebben ragyog, mint valaha, de az évszázadok alatt felhalmozódott kosszal együtt mintha a történelmét is lemosták volna róla. Bár a felújítás még nem ért véget, ha a belső tér már nem változik, akkor az évtizedek múlva sebtében idelátogató turista azt se fogja tudni, mi történt az elmúlt öt évben a templom körül.