Már egy videón is látni, mire képes egy kínai startup és egyetem által fejlesztett videógenerátor, a Vidu. Bár a viszonyítási alap az OpenAI Sora, látszólag még nem tart ott minden tekintetben.
Egyetlen kattintással tud legfeljebb 16 másodperces FullHD videókat generálni a Shengshu Technology nevű kínai startup, valamint a Tsinghua Egyetem közösen fejlesztett mesterséges intelligenciája, a Vidu.
A képességeit tekintve az OpenAI Sorára hajazó modell a fejlesztői elmondása szerint egy saját fejlesztésű arhitektúrára épül, melyet Universal Vision Transformernek (U-ViT) neveztek el.
Ez – írja a The Global Times – két szöveg-videó modellt egyesít, a Diffusiont és a Transformert. A végeredmény, hasonlóan a Sorához, valósághű videók, dinamikusnak ható kameramozgás, részletes arckifejezések, árnyékok és fények – a kiadott videó alapján azonban kicsit olyan, mintha a mozgások a gyakorlatban kevésbé lennének olyan dinamikusak, mint az OpenAI modelljénél:
Egy dologban azonban biztosan le van maradva a Sorához képest: míg az OpenAI modellje akár egyperces videókat is képes generálni, a kínai Vidunál 16 másodperc a limit.
Nemrég a Microsoft is bemutatott egy videógeneráló MI-t, igaz, a VASA-1 némileg más: egy fotó alapján, szöveges parancsok mentén kelti életre a képet. Például a Mona Lisát.
Ha máskor is tudni szeretne hasonló dolgokról, lájkolja a HVG Tech rovatának Facebook-oldalát.