7 月 4 日消息,阿里“通義大模型”公眾號今日發(fā)文宣布,通義實驗室首個音頻生成模型 ThinkSound 現(xiàn)已正式開源,將打破“靜音畫面”的想象力局限。
ThinkSound 首次將 CoT(Chain-of-Thought,思維鏈)應用到音頻生成領域,讓 AI 學會一步步“想清楚”畫面事件與聲音之間的關系,從而實現(xiàn)高保真、強同步的空間音頻生成 —— 不只是“看圖配音”,而是真正“聽懂畫面”。
為了讓 AI 學會“有邏輯地聽”,通義實驗室語音團隊構建了首個支持鏈式推理的多模態(tài)音頻數(shù)據(jù)集AudioCoT。
AudioCoT 融合了來自 VGGSound、AudioSet、AudioCaps、Freesound 等多個來源的2531.8 小時高質(zhì)量樣本。這些數(shù)據(jù)覆蓋了從動物鳴叫、機械運轉(zhuǎn)到環(huán)境音效等多種真實場景,為模型提供了豐富而多樣化的訓練基礎。為了確保每條數(shù)據(jù)都能真正支撐 AI 的結(jié)構化推理能力,研究團隊設計了一套精細化的數(shù)據(jù)篩選流程,包括多階段自動化質(zhì)量過濾和不少于 5%的人工抽樣校驗,層層把關以保障數(shù)據(jù)集的整體質(zhì)量。
在此基礎上,AudioCoT 還特別設計了面向交互式編輯的對象級和指令級樣本,以滿足 ThinkSound 在后續(xù)階段對細化與編輯功能的需求。
ThinkSound 由兩個關鍵部分組成:一個擅長“思考”的多模態(tài)大語言模型(MLLM),以及一個專注于“聽覺輸出”的統(tǒng)一音頻生成模型。正是這兩個模塊的配合,使得系統(tǒng)可以按照三個階段逐步解析畫面內(nèi)容,并最終生成精準對位的音頻效果 —— 從理解整體畫面,到聚焦具體物體,再到響應用戶指令。
據(jù)官方介紹,近年來,盡管端到端視頻到音頻(V2A)生成技術取得了顯著進展,但仍難以真正捕捉畫面中的動態(tài)細節(jié)和空間關系。像貓頭鷹何時鳴叫、何時起飛,樹枝晃動時是否伴隨摩擦聲等視覺-聲學關聯(lián),往往被忽視,導致生成的音頻過于通用,甚至與關鍵視覺事件錯位,難以滿足專業(yè)創(chuàng)意場景中對時序和語義連貫性的嚴格要求。
這背后的核心問題在于:AI 缺乏對畫面事件的結(jié)構化理解,無法像人類音效師那樣,一步步分析、推理、再合成聲音。
附開源地址:
https://github.com/FunAudioLLM/ThinkSound
https://huggingface.co/spaces/FunAudioLLM/ThinkSound
https://www.modelscope.cn/studios/iic/ThinkSound
本文鏈接:http://www.tebozhan.com/showinfo-45-14394-0.html阿里通義開源旗下首個音頻生成模型 ThinkSound:可像“專業(yè)音效師”一樣思考
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com