11 月 17 日消息,來自新加坡南洋理工大學(NTU Singapore)的科研團隊近日開發出了 DIRFA 工具,用戶給一張圖片以及音頻內容,可以自動生成 3D 視頻,并實現口型和聲音的同步協調。
DIRFA 的全稱為 DIverse yet Realistic Facial Animations,訓練了超過 6000 多人的 100 萬個視頻片段,音頻片段來自一個名為 VoxCeleb2 數據集的開源數據庫,并關聯面部表情和頭部運動。
研究人員表示,DIRFA 可能會在包括醫療保健在內的各個行業和領域帶來新的應用,因為它可以實現更復雜和逼真的虛擬助手和聊天機器人,從而改善用戶體驗。
DIRFA 還可以作為言語或面部殘疾人士的強大工具,幫助他們通過富有表現力的頭像或數字表示來傳達他們的想法和情感,從而增強他們的溝通能力。
附上論文參考地址:Rongliang Wu, Yingchen Yu, Fangneng Zhan, Jiahui Zhang, Xiaoqin Zhang, Shijian Lu.Audio-driven talking face generation with diverse yet realistic facial animations.Pattern Recognition, 2023; 144: 109865 DOI:10.1016/j.patcog.2023.109865
本文鏈接:http://www.tebozhan.com/showinfo-45-2607-0.html科學家開發 DIRFA:輸入圖片和音頻,可生成說話視頻
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com