AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

受 DeepSeek-R1 啟發(fā),小米大模型團隊登頂音頻推理 MMAU 榜

來源: 責編: 時間:2025-03-19 09:41:26 25觀看
導讀 3 月 17 日消息,@小米技術 官微今日發(fā)文稱,小米大模型團隊在音頻推理領域取得突破性進展。受 DeepSeek-R1 啟發(fā),團隊率先將強化學習算法應用于多模態(tài)音頻理解任務,僅用一周時間便以 64.5% 的 SOTA 準確率登頂國際

3 月 17 日消息,@小米技術 官微今日發(fā)文稱,小米大模型團隊在音頻推理領域取得突破性進展。受 DeepSeek-R1 啟發(fā),團隊率先將強化學習算法應用于多模態(tài)音頻理解任務,僅用一周時間便以 64.5% 的 SOTA 準確率登頂國際權威的 MMAU 音頻理解評測榜首,現(xiàn)同步開源。OBC28資訊網(wǎng)——每日最新資訊28at.com

OBC28資訊網(wǎng)——每日最新資訊28at.com

附官方全文如下:OBC28資訊網(wǎng)——每日最新資訊28at.com

強化學習展現(xiàn)“反直覺”優(yōu)勢 —— 小米大模型團隊登頂音頻推理 MMAU 榜

面對一段汽車行駛中的座艙錄音,AI 能否判斷出汽車是否存在潛在的故障?在交響樂演出現(xiàn)場,AI 能否推測出作曲家創(chuàng)造這首音樂時的心情?在早高峰地鐵站混亂的腳步聲潮中,AI 能否預判閘機口可能發(fā)生的沖撞風險?在大模型時代,人們已經(jīng)不滿足于機器僅僅識別說話的內容、聲音的種類,更期望機器具備復雜推理的能力。OBC28資訊網(wǎng)——每日最新資訊28at.com

MMAU(Massive Multi-Task Audio Understanding and Reasoning)評測集(https://arxiv.org/ abs / 2410.19168)是這種音頻推理能力的量化標尺,它通過一萬條涵蓋語音、環(huán)境聲和音樂的音頻樣本,結合人類專家標注的問答對,測試模型在 27 種技能,如跨場景推理、專業(yè)知識等應用上的表現(xiàn),期望模型達到接近人類專家的邏輯分析水平。OBC28資訊網(wǎng)——每日最新資訊28at.com

作為基準上限,人類專家在 MMAU 上的準確率為 82.23%。這是一個很難的評測集,目前 MMAU 官網(wǎng)榜單上表現(xiàn)最好的模型是來自 OpenAI 的 GPT-4o,準確率為 57.3%。緊隨其后的是來自 Google DeepMind 的 Gemini 2.0 Flash,準確率為 55.6%。OBC28資訊網(wǎng)——每日最新資訊28at.com

OBC28資訊網(wǎng)——每日最新資訊28at.com

MMAU 任務示例圖片來自 MMAU 論文

來自阿里的 Qwen2-Audio-7B 模型在此評測集上的準確率為 49.2%。由于它的開源特性,我們嘗試使用一個較小的數(shù)據(jù)集,清華大學發(fā)布的 AVQA 數(shù)據(jù)集(https://mn.cs.tsinghua.edu.cn/ avqa/),對此模型做微調。AVQA 數(shù)據(jù)集僅包含 3.8 萬條訓練樣本,通過全量有監(jiān)督微調(SFT),模型在 MMAU 上的準確率提升到了 51.8%。這并不是一個特別顯著的提升。OBC28資訊網(wǎng)——每日最新資訊28at.com

DeepSeek-R1 的發(fā)布為我們在該項任務上的研究帶來了啟發(fā)。DeepSeek-R1 的 Group Relative Policy Optimization (GRPO) 方法,讓模型僅通過 "試錯-獎勵" 機制就能使自主進化,涌現(xiàn)出類似人類的反思、多步驗證等推理能力。在同一時間,卡內基梅隆大學發(fā)布的論文預印本“All Roads Lead to Likelihood: The Value of Reinforcement Learning in Fine-Tuning (https://arxiv.org/ abs / 2503.01067) ”,通過精巧的實驗得出了一個有趣的論斷:當任務存在明顯的生成-驗證差距(Generation-Verification Gap),即任務生成結果的難度遠大于驗證結果正確性的難度時,強化學習比起有監(jiān)督微調具有獨特優(yōu)勢,而 AQA 任務恰好是完美的生成-驗證差距顯著的任務。OBC28資訊網(wǎng)——每日最新資訊28at.com

打個比方來說,離線微調方法,如 SFT,有點像背題庫,你只能根據(jù)已有的題目和答案訓練,但遇到新題可能不會做;而強化學習方法,如 GRPO,像老師在要求你多想幾個答案,然后老師告訴你哪一個答案好,讓你主動思考,激發(fā)出自身的能力,而不是被“填鴨式”教學。當然,如果訓練量足夠,比如有學生愿意花很多年的時間來死記硬背題庫,也許最終也能達到不錯的效果,但效率太低,浪費太多時間。而主動思考,更容易快速地達到舉一反三的效果。強化學習的實時反饋可能會幫助模型更快鎖定高質量答案的分布區(qū)域,而離線方法需要遍歷整個可能性空間,效率要低得多。OBC28資訊網(wǎng)——每日最新資訊28at.com

基于上述洞察,我們嘗試將 DeepSeek-R1 的 GRPO 算法遷移到 Qwen2-Audio-7B 模型上。令人驚喜的是,在僅使用 AVQA 的 3.8 萬條訓練樣本的情況下,強化學習微調后的模型在 MMAU 評測集上實現(xiàn)了 64.5% 的準確率,這一成績比目前榜單上第一名的商業(yè)閉源模型 GPT-4o 有近 10 個百分點的優(yōu)勢。OBC28資訊網(wǎng)——每日最新資訊28at.com

有趣的是,當我們在訓練中強制要求模型輸出 <thinking></thinking> 推理過程時(類似傳統(tǒng)思維鏈方法),準確率反而下降至 61.1%。這說明顯式的思維鏈結果輸出可能并不利于模型的訓練。OBC28資訊網(wǎng)——每日最新資訊28at.com

我們的實驗揭示了幾個和傳統(tǒng)認知不同的結論:OBC28資訊網(wǎng)——每日最新資訊28at.com

關于微調方法:強化學習在 3.8 萬條數(shù)據(jù)集上的表現(xiàn)顯著超過監(jiān)督學習在 57 萬條數(shù)據(jù)集上的結果OBC28資訊網(wǎng)——每日最新資訊28at.com

關于參數(shù)規(guī)模:相比千億級模型,7B 參數(shù)的模型通過強化學習也可展現(xiàn)強推理能力OBC28資訊網(wǎng)——每日最新資訊28at.com

關于隱式推理:顯式思維鏈輸出反而成為性能瓶頸OBC28資訊網(wǎng)——每日最新資訊28at.com

盡管當前準確率已突破 64%,但距離人類專家 82% 的水平仍有差距。在我們當前的實驗中,強化學習策略還是比較粗糙,訓練過程對思維鏈的引導并不充分,我們會在后續(xù)做進一步探索。OBC28資訊網(wǎng)——每日最新資訊28at.com

此次實驗驗證了強化學習在音頻推理領域的獨特價值,也為后續(xù)研究打開了一扇新的大門。當機器不僅能 "聽見" 聲音,還能 "聽懂" 聲音背后的因果邏輯時,真正的智能聽覺時代將會來臨。OBC28資訊網(wǎng)——每日最新資訊28at.com

我們把訓練代碼、模型參數(shù)開源,并提供了技術報告,供學術界產業(yè)界參考交流。OBC28資訊網(wǎng)——每日最新資訊28at.com

訓練代碼:https://github.com/xiaomi-research/r1-aqaOBC28資訊網(wǎng)——每日最新資訊28at.com

模型參數(shù):https://huggingface.co/mispeech/r1-aqaOBC28資訊網(wǎng)——每日最新資訊28at.com

技術報告:https://arxiv.org/abs/2503.11197OBC28資訊網(wǎng)——每日最新資訊28at.com

交互 Demo:http://120.48.108.147:7860/OBC28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-11593-0.html受 DeepSeek-R1 啟發(fā),小米大模型團隊登頂音頻推理 MMAU 榜

聲明:本網(wǎng)頁內容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: AI 助力,新研究只用 5 滴血就能測出你的真實生理年齡

下一篇: “AI 作弊”助程序員線上面試蒙混過關,谷歌等大廠考慮恢復面對面形式

標簽:
  • 熱門焦點
  • 拯救XR,蘋果力不從心

    來源 | 光子星球撰文 | 文燁豪 編輯 | 吳先之 蘋果終于呈上了它的&ldquo;答卷&rdquo;。 北京時間6月6日凌晨,蘋果2023年全球開發(fā)者大會(WWDC)如期舉行。作為蘋果CEO庫克口中&ld
  • 25萬虛擬er在“元宇宙”追星

    &ldquo;默嘰默嘰,我是默默醬,我是在真元宇宙也有頭有臉的人。&rdquo;12月11日晚20:00,虛擬偶像@默默醬的首場個人元宇宙演唱會《以夢為馬,抵達繁星》在大有空間APP
  • “任何國產元宇宙都是假元宇宙”

    上個月,華語樂壇的優(yōu)質偶像之一,DOTA2資深玩家林俊杰,在國外元宇宙產品分布式大陸(Decentraland)上買了三塊虛擬地產,花了12.3萬美元(也就是人民幣接近80萬)。截至目
  • 2022開年最熱投資賽道竟是虛擬人,背后隱藏了什么商業(yè)價值?

    在剛剛結束不久的2021年江蘇衛(wèi)視跨年演唱會上,虛擬鄧麗君與歌手周深同臺聯(lián)唱,實現(xiàn)了跨時代合作,而這還不只是“鄧麗君”,嗶哩嗶哩、東方衛(wèi)視等多家跨年晚會都出現(xiàn)
  • 8個最適合藝術家發(fā)行NFT的交易市場

    近年來,加密風靡全球。加密圈最令人興奮的方面之一是它能夠用于創(chuàng)建稱為NFT 的數(shù)字資產。從 CyberKitties 到 Cyber Galleries,NFT 已成為藝術家和藝術鑒賞家的
  • NFT Insider #47:YGG發(fā)布2021Q4社區(qū)報告,GameFi領域1月份獲超10億美元融資

    引言:NFT Insider由WHALE社區(qū)、BeepCrypto聯(lián)合出品,濃縮每周NFT新聞,為大家?guī)黻P于NFT最全面、最新鮮、最有價值的訊息。每期周報將從NFT市場數(shù)據(jù),藝術新聞類,游戲
  • 傳統(tǒng)互聯(lián)網(wǎng)與區(qū)塊鏈場景下數(shù)據(jù)權利法律分析

    數(shù)據(jù)權益的復雜性在于數(shù)據(jù)涉及多環(huán)節(jié)多主體、內容不同質且與不同場景緊密聯(lián)系、對軟硬件技術環(huán)節(jié)緊密相關等方面的復雜性。在傳統(tǒng)互聯(lián)網(wǎng)與區(qū)塊鏈模式下,數(shù)據(jù)處
  • NFT高玩必備:NFT分析工具大盤點

    NFT市場的火熱讓越來越多的投資者投身其中,但當前的 NFT 生態(tài)系統(tǒng)存在幾個問題卻困擾了大多數(shù)人,如難以準確評估 NFT 項目的資產價格、缺乏 NFT 市場動態(tài)信息、
  • Staking 收益翻倍?

    以太坊質押可能很快就會有兩倍的利潤。Coinbase 估計,在 1 月份以太坊網(wǎng)絡合并后,持有 ETH 的回報將翻倍。增長預期假設來自加密貨幣交易所 Coinbase 的估計是準
Top