AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

阿里通義開源旗下首個音頻生成模型 ThinkSound:可像“專業(yè)音效師”一樣思考

來源: 責編: 時間:2025-07-07 09:51:53 37觀看
導讀 7 月 4 日消息,阿里“通義大模型”公眾號今日發(fā)文宣布,通義實驗室首個音頻生成模型 ThinkSound 現(xiàn)已正式開源,將打破“靜音畫面”的想象力局限。ThinkSound 首次將 CoT(Chain-of-Thought,思維鏈)應用到音頻生成領域

7 月 4 日消息,阿里“通義大模型”公眾號今日發(fā)文宣布,通義實驗室首個音頻生成模型 ThinkSound 現(xiàn)已正式開源,將打破“靜音畫面”的想象力局限。q5228資訊網(wǎng)——每日最新資訊28at.com

ThinkSound 首次將 CoT(Chain-of-Thought,思維鏈)應用到音頻生成領域,讓 AI 學會一步步“想清楚”畫面事件與聲音之間的關系,從而實現(xiàn)高保真、強同步的空間音頻生成 —— 不只是“看圖配音”,而是真正“聽懂畫面”。q5228資訊網(wǎng)——每日最新資訊28at.com

q5228資訊網(wǎng)——每日最新資訊28at.com

為了讓 AI 學會“有邏輯地聽”,通義實驗室語音團隊構建了首個支持鏈式推理的多模態(tài)音頻數(shù)據(jù)集AudioCoT。q5228資訊網(wǎng)——每日最新資訊28at.com

AudioCoT 融合了來自 VGGSound、AudioSet、AudioCaps、Freesound 等多個來源的2531.8 小時高質(zhì)量樣本。這些數(shù)據(jù)覆蓋了從動物鳴叫、機械運轉(zhuǎn)到環(huán)境音效等多種真實場景,為模型提供了豐富而多樣化的訓練基礎。為了確保每條數(shù)據(jù)都能真正支撐 AI 的結(jié)構化推理能力,研究團隊設計了一套精細化的數(shù)據(jù)篩選流程,包括多階段自動化質(zhì)量過濾和不少于 5%的人工抽樣校驗,層層把關以保障數(shù)據(jù)集的整體質(zhì)量。q5228資訊網(wǎng)——每日最新資訊28at.com

在此基礎上,AudioCoT 還特別設計了面向交互式編輯的對象級和指令級樣本,以滿足 ThinkSound 在后續(xù)階段對細化與編輯功能的需求。q5228資訊網(wǎng)——每日最新資訊28at.com

ThinkSound 由兩個關鍵部分組成:一個擅長“思考”的多模態(tài)大語言模型(MLLM),以及一個專注于“聽覺輸出”的統(tǒng)一音頻生成模型。正是這兩個模塊的配合,使得系統(tǒng)可以按照三個階段逐步解析畫面內(nèi)容,并最終生成精準對位的音頻效果 —— 從理解整體畫面,到聚焦具體物體,再到響應用戶指令。q5228資訊網(wǎng)——每日最新資訊28at.com

q5228資訊網(wǎng)——每日最新資訊28at.com

據(jù)官方介紹,近年來,盡管端到端視頻到音頻(V2A)生成技術取得了顯著進展,但仍難以真正捕捉畫面中的動態(tài)細節(jié)和空間關系。像貓頭鷹何時鳴叫、何時起飛,樹枝晃動時是否伴隨摩擦聲等視覺-聲學關聯(lián),往往被忽視,導致生成的音頻過于通用,甚至與關鍵視覺事件錯位,難以滿足專業(yè)創(chuàng)意場景中對時序和語義連貫性的嚴格要求。q5228資訊網(wǎng)——每日最新資訊28at.com

這背后的核心問題在于:AI 缺乏對畫面事件的結(jié)構化理解,無法像人類音效師那樣,一步步分析、推理、再合成聲音。q5228資訊網(wǎng)——每日最新資訊28at.com

附開源地址:q5228資訊網(wǎng)——每日最新資訊28at.com

https://github.com/FunAudioLLM/ThinkSoundq5228資訊網(wǎng)——每日最新資訊28at.com

https://huggingface.co/spaces/FunAudioLLM/ThinkSoundq5228資訊網(wǎng)——每日最新資訊28at.com

https://www.modelscope.cn/studios/iic/ThinkSoundq5228資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-14394-0.html阿里通義開源旗下首個音頻生成模型 ThinkSound:可像“專業(yè)音效師”一樣思考

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 榮耀Magic V5智能制造揭秘:AI引領中國手機制造新飛躍

下一篇: OpenAI 揭秘 ChatGPT 兩年半前爆火背后軼事:原計劃命名“Chat with GPT-3.5”

標簽:
  • 熱門焦點
  • 雷克薩斯高管,“受賄”5000萬?

    來源:毒舌科技作者:潘磊雷克薩斯的高管,好像出事了。五六家日本小媒體,突然曝出了一個與中國市場有關的大新聞——雷克薩斯中國區(qū)一個高管受賄10億日元(約合人民幣5000
  • 林俊杰、余文樂等明星相繼入局,元宇宙虛擬土地究竟有何魔力?

    上周的元宇宙和明星圈因為一則“林俊杰在推特上宣布持有Decentraland元宇宙虛擬地塊”的新聞而備受關注,該新聞一方面在娛樂圈引起了吃瓜群眾的好奇,另一方面在
  • 字節(jié)跳動,剛剛投了一位虛擬女生

    今年第一筆虛擬人融資出爐了。投資界獲悉,杭州李未可科技有限公司顯示發(fā)生股東變更,新增字節(jié)跳動關聯(lián)公司北京量子躍動科技有限公司。今天公司方面正式確認,本輪
  • 完美世界被元宇宙“拒之門外”

    春節(jié)期間,游戲是消磨時間最好的方式,完美世界的《幻塔》作為選擇的首要目標,倒不是因為它的吸引力有多大,純粹是廣大網(wǎng)友的吐槽。繼《原神》之后,進擊元宇宙的游戲
  • 2022 區(qū)塊鏈 50 強榜單;垃圾NFT項目的十三個特性

    本期關鍵字TerraZero在Decentraland完成元宇宙住房抵押貸款;騰訊發(fā)行齊白石畫作數(shù)字藏品;Ripple成為數(shù)字歐元協(xié)會成員;Gem上線稀有度排名功能;2022 區(qū)塊鏈 50 強榜
  • 英特爾首款加密芯片將于今年上市|國際動態(tài)

    No.1 英特爾首款加密芯片將于今年上市2月13日消息,英特爾首款名為“區(qū)塊鏈加速器”的加密芯片將于今年晚些時候上市。目前,已經(jīng)有兩家公司預訂了這項技術,分別是G
  • 韓國建立元宇宙生態(tài)系統(tǒng),智度股份發(fā)布元宇宙社區(qū)Meta彼岸

    財聯(lián)社|區(qū)塊鏈日報28日訊 今日《元宇宙新鮮事》有:杭州第十三次黨代會報告指出抓緊布局元宇宙等未來產(chǎn)業(yè);韓國科學信息通信技術部宣布投資1.85億美元建立元宇宙
  • 盤點9個主流元宇宙平臺,你都知道哪些?

    隨著NFT的持續(xù)升溫,它也加入了現(xiàn)在的元宇宙浪潮。本文介紹元宇宙的基本概念以及 九個最流行的元宇宙NFT平臺,如Decentraland、sandbox等。用熟悉的語言學習 以太
  • 元宇宙收割了誰

    作者:曉宇資本將元宇宙看作下一代互聯(lián)網(wǎng)的門票,畫大餅、割韭菜就成了一大選項。2021年被稱為元宇宙元年。在這一年里,先是號稱元宇宙第一股的沙盒游戲Roblox盛裝
Top