Fugatto néven mutatta be az Nvidia azt a mesterséges intelligenciát, amit a cég szerint számos területen lehet majd hasznosítani.
Újfajta generatív mesterségesintelligencia-modellt mutatott be nemrég az Nvidia, amit nemes egyszerűséggel csak a hangok svájci bicskájaként emleget. A Fugatto (Foundational Generative Audio Transformer Opus 1) nevű fejlesztésre akasztott jelző az Nvidia videója alapján valóban megérdemelt, a modell ugyanis szöveges parancsokból képes zenét, beszédet vagy hangeffektet generálni. Emellett arra is képes, hogy már meglévő zenét vagy hangot módosítson.
A cég közlése szerint a Fugattot egy nemzetközi csapat fejlesztette, így a beszédet többféle akcentussal is le tudja generálni, és többféle nyelven is ért az eszköz. „Olyan modellt akartunk létrehozni, amely úgy érti és generálja a hangot, mint az emberek” – mondta Rafael Valle, a projekt egyik kutatója.
A vállalat szerint a zenei producerek a technológia segítségével könnyen és gyorsan állíthatnak elő alapot egy dalötlethez, amit aztán tovább tudnak szerkeszteni, hogy kipróbálhassák, miként szólnak a különböző stílusok, hangok és hangszerek a dalban.
De az eszköz azoknak is hasznos lehet, akik nyelvet tanulnának, a Fugattóval ugyanis a nyelvtanulási eszközökhöz tudnak új anyagokat előállítani, míg a videójátékok fejlesztői előre rögzített hangokat tehetnek a játékokba, amelyek aztán azok alapján tűnnek fel, hogy az adott játékos milyen döntést hozott egy helyzetben.
Az NVIDIA nem közölte, hogy a nyilvánosság számára mikor válik elérhetővé a Fugatto, vagy, hogy egyáltalán elérhető lesz-e. Ugyanakkor a modell nem az első olyan generatív mesterséges intelligencia, amely szöveges üzenetekből hangokat tud létrehozni. A Meta korábban kiadott egy nyílt forráskódú eszközt, amely szöveges leírásokból képes hangokat létrehozni. A Google-nak van saját MusicLM nevű szöveg-zene MI-ja, amit az AI Test Kitchenön keresztül lehet elérni.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.