AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

谷歌推出多模態 VLOGGER AI:讓靜態肖像圖動起來“說話”

來源: 責編: 時間:2024-03-21 09:43:54 172觀看
導讀 3 月 19 日消息,谷歌近日在 GitHub 頁面發布博文,介紹了 VLOGGER AI 模型,用戶只需要輸入一張肖像照片和一段音頻內容,該模型可以讓這些人物“動起來”,富有面部表情地朗讀音頻內容。VLOGGER AI 是一種適用于虛擬

3 月 19 日消息,谷歌近日在 GitHub 頁面發布博文,介紹了 VLOGGER AI 模型,用戶只需要輸入一張肖像照片和一段音頻內容,該模型可以讓這些人物“動起來”,富有面部表情地朗讀音頻內容。1c528資訊網——每日最新資訊28at.com

1c528資訊網——每日最新資訊28at.com

VLOGGER AI 是一種適用于虛擬肖像的多模態 Diffusion 模型,使用 MENTOR 數據庫進行訓練,該數據庫中包含超過 80 萬名人物肖像,以及累計超過 2200 小時的影片,從而讓 VLOGGER 生成不同種族、不同年齡、不同穿著、不同姿勢的肖像影片。1c528資訊網——每日最新資訊28at.com

1c528資訊網——每日最新資訊28at.com

研究人員表示:“和此前的多模態相比,VLOGGER 的優勢在于不需要對每個人進行訓練,不依賴于人臉檢測和裁剪,可以生成完整的圖像(而不僅僅是人臉或嘴唇),并且考慮了廣泛的場景(例如可見軀干或不同的主體身份),這些對于正確合成交流的人類至關重要”。1c528資訊網——每日最新資訊28at.com

Google 將 VLOGGER 視為邁向“通用聊天機器人”的一步,之后 AI 就可以通過語音、手勢和眼神交流以自然的方式與人類互動。1c528資訊網——每日最新資訊28at.com

VLOGGER 的應用場景還包括可以用于報告、教育場域和旁白等,也可剪輯既有的影片,如果對影片中的表情不滿意就能加以調整。1c528資訊網——每日最新資訊28at.com

附上論文參考1c528資訊網——每日最新資訊28at.com

VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis1c528資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-3644-0.html谷歌推出多模態 VLOGGER AI:讓靜態肖像圖動起來“說話”

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 聯想與英偉達合作,推出全新混合 AI 解決方案

下一篇: Canalys 預估 2025 年 AI PC 占全球 PC 出貨量的 40%

標簽:
  • 熱門焦點
Top