當前位置：首頁 > 元宇宙 > AI

阿里通義開源旗下首個音頻生成模型 ThinkSound：可像“專業(yè)音效師”一樣思考

來源：責編：時間：2025-07-07 09:51:53 37觀看

導讀 7 月 4 日消息，阿里“通義大模型”公眾號今日發(fā)文宣布，通義實驗室首個音頻生成模型 ThinkSound 現(xiàn)已正式開源，將打破“靜音畫面”的想象力局限。ThinkSound 首次將 CoT（Chain-of-Thought，思維鏈）應用到音頻生成領域

7 月 4 日消息，阿里“通義大模型”公眾號今日發(fā)文宣布，通義實驗室首個音頻生成模型 ThinkSound 現(xiàn)已正式開源，將打破“靜音畫面”的想象力局限。

ThinkSound 首次將 CoT（Chain-of-Thought，思維鏈）應用到音頻生成領域，讓 AI 學會一步步“想清楚”畫面事件與聲音之間的關系，從而實現(xiàn)高保真、強同步的空間音頻生成 —— 不只是“看圖配音”，而是真正“聽懂畫面”。

為了讓 AI 學會“有邏輯地聽”，通義實驗室語音團隊構建了首個支持鏈式推理的多模態(tài)音頻數(shù)據(jù)集AudioCoT。

AudioCoT 融合了來自 VGGSound、AudioSet、AudioCaps、Freesound 等多個來源的2531.8 小時高質(zhì)量樣本。這些數(shù)據(jù)覆蓋了從動物鳴叫、機械運轉(zhuǎn)到環(huán)境音效等多種真實場景，為模型提供了豐富而多樣化的訓練基礎。為了確保每條數(shù)據(jù)都能真正支撐 AI 的結(jié)構化推理能力，研究團隊設計了一套精細化的數(shù)據(jù)篩選流程，包括多階段自動化質(zhì)量過濾和不少于 5%的人工抽樣校驗，層層把關以保障數(shù)據(jù)集的整體質(zhì)量。

在此基礎上，AudioCoT 還特別設計了面向交互式編輯的對象級和指令級樣本，以滿足 ThinkSound 在后續(xù)階段對細化與編輯功能的需求。

ThinkSound 由兩個關鍵部分組成：一個擅長“思考”的多模態(tài)大語言模型（MLLM），以及一個專注于“聽覺輸出”的統(tǒng)一音頻生成模型。正是這兩個模塊的配合，使得系統(tǒng)可以按照三個階段逐步解析畫面內(nèi)容，并最終生成精準對位的音頻效果 —— 從理解整體畫面，到聚焦具體物體，再到響應用戶指令。

據(jù)官方介紹，近年來，盡管端到端視頻到音頻（V2A）生成技術取得了顯著進展，但仍難以真正捕捉畫面中的動態(tài)細節(jié)和空間關系。像貓頭鷹何時鳴叫、何時起飛，樹枝晃動時是否伴隨摩擦聲等視覺-聲學關聯(lián)，往往被忽視，導致生成的音頻過于通用，甚至與關鍵視覺事件錯位，難以滿足專業(yè)創(chuàng)意場景中對時序和語義連貫性的嚴格要求。

這背后的核心問題在于：AI 缺乏對畫面事件的結(jié)構化理解，無法像人類音效師那樣，一步步分析、推理、再合成聲音。

附開源地址：

https://github.com/FunAudioLLM/ThinkSound

https://huggingface.co/spaces/FunAudioLLM/ThinkSound

https://www.modelscope.cn/studios/iic/ThinkSound

本文鏈接：http://www.tebozhan.com/showinfo-45-14394-0.html阿里通義開源旗下首個音頻生成模型 ThinkSound：可像“專業(yè)音效師”一樣思考

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：榮耀Magic V5智能制造揭秘：AI引領中國手機制造新飛躍

下一篇： OpenAI 揭秘 ChatGPT 兩年半前爆火背后軼事：原計劃命名“Chat with GPT-3.5”

標簽：

熱門焦點

雷克薩斯高管，“受賄”5000萬？

來源：毒舌科技作者：潘磊雷克薩斯的高管，好像出事了。五六家日本小媒體，突然曝出了一個與中國市場有關的大新聞——雷克薩斯中國區(qū)一個高管受賄10億日元（約合人民幣5000
林俊杰、余文樂等明星相繼入局，元宇宙虛擬土地究竟有何魔力？

上周的元宇宙和明星圈因為一則“林俊杰在推特上宣布持有Decentraland元宇宙虛擬地塊”的新聞而備受關注，該新聞一方面在娛樂圈引起了吃瓜群眾的好奇，另一方面在
字節(jié)跳動，剛剛投了一位虛擬女生

今年第一筆虛擬人融資出爐了。投資界獲悉，杭州李未可科技有限公司顯示發(fā)生股東變更，新增字節(jié)跳動關聯(lián)公司北京量子躍動科技有限公司。今天公司方面正式確認，本輪
完美世界被元宇宙“拒之門外”

春節(jié)期間，游戲是消磨時間最好的方式，完美世界的《幻塔》作為選擇的首要目標，倒不是因為它的吸引力有多大，純粹是廣大網(wǎng)友的吐槽。繼《原神》之后，進擊元宇宙的游戲
2022 區(qū)塊鏈 50 強榜單；垃圾NFT項目的十三個特性

本期關鍵字TerraZero在Decentraland完成元宇宙住房抵押貸款；騰訊發(fā)行齊白石畫作數(shù)字藏品；Ripple成為數(shù)字歐元協(xié)會成員；Gem上線稀有度排名功能；2022 區(qū)塊鏈 50 強榜
英特爾首款加密芯片將于今年上市｜國際動態(tài)

No.1 英特爾首款加密芯片將于今年上市2月13日消息，英特爾首款名為“區(qū)塊鏈加速器”的加密芯片將于今年晚些時候上市。目前，已經(jīng)有兩家公司預訂了這項技術，分別是G
韓國建立元宇宙生態(tài)系統(tǒng)，智度股份發(fā)布元宇宙社區(qū)Meta彼岸

財聯(lián)社|區(qū)塊鏈日報28日訊今日《元宇宙新鮮事》有：杭州第十三次黨代會報告指出抓緊布局元宇宙等未來產(chǎn)業(yè)；韓國科學信息通信技術部宣布投資1.85億美元建立元宇宙
盤點9個主流元宇宙平臺，你都知道哪些？

隨著NFT的持續(xù)升溫，它也加入了現(xiàn)在的元宇宙浪潮。本文介紹元宇宙的基本概念以及九個最流行的元宇宙NFT平臺，如Decentraland、sandbox等。用熟悉的語言學習以太
元宇宙收割了誰

作者：曉宇資本將元宇宙看作下一代互聯(lián)網(wǎng)的門票，畫大餅、割韭菜就成了一大選項。2021年被稱為元宇宙元年。在這一年里，先是號稱元宇宙第一股的沙盒游戲Roblox盛裝

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

阿里通義開源旗下首個音頻生成模型 ThinkSound：可像“專業(yè)音效師”一樣思考

雷克薩斯高管，“受賄”5000萬？

林俊杰、余文樂等明星相繼入局，元宇宙虛擬土地究竟有何魔力？

字節(jié)跳動，剛剛投了一位虛擬女生

完美世界被元宇宙“拒之門外”

2022 區(qū)塊鏈 50 強榜單；垃圾NFT項目的十三個特性

英特爾首款加密芯片將于今年上市｜國際動態(tài)

韓國建立元宇宙生態(tài)系統(tǒng)，智度股份發(fā)布元宇宙社區(qū)Meta彼岸

盤點9個主流元宇宙平臺，你都知道哪些？

元宇宙收割了誰

最新推薦

雷克薩斯高管，“受賄”5000萬？

文心一言排名墊底，卻成為百度業(yè)績增長杠桿

元宇宙火熱的當下，我們該如何“身臨其境”的體驗元宇宙？

元宇宙將會如何塑造未來的工作方式？

2022年最具關注的9個頭像NFT項目

新款英特爾芯片將使NFT鑄造變得更加方便

猜你喜歡

熱門推薦

相關資訊