5 月 1 日消息,阿里巴巴持續發力 AI 領域,其 Qwen 團隊于 3 月發布 Qwen2.5-Omni-7B 模型后,昨日(4 月 30 日)再次發布 Qwen2.5-Omni-3B,目前可以在 Hugging Face 上開放下載。
注:這款 3B 參數模型是其 7B 旗艦多模態模型的輕量版本,專為消費級硬件設計,覆蓋文本、音頻、圖像和視頻等多種輸入功能。
團隊表示,盡管參數規模縮小,3B 版本在多模態性能上仍保持了 7B 模型的 90% 以上,尤其在實時文本生成和自然語音輸出方面表現亮眼。
基準測試顯示,其在視頻理解(VideoBench: 68.8)和語音生成(Seed-tts-eval test-hard: 92.1)等任務中接近 7B 模型水平。
Qwen2.5-Omni-3B 在內存使用上的改進尤為突出。團隊報告稱,處理 25,000 token 的長上下文輸入時,該模型 VRAM 占用減少 53%,從 7B 模型的 60.2 GB 降至 28.2 GB。
這意味著該模型可在 24GB GPU 上運行,無需企業級 GPU 集群支持,可以在高端臺式機和筆記本電腦上運行。
其架構創新,如 Thinker-Talker 設計和定制位置嵌入方法 TMRoPE,確保了視頻與音頻輸入的同步理解。此外,模型支持 FlashAttention 2 和 BF16 精度優化,進一步提升速度并降低內存消耗。
Qwen2.5-Omni-3B 的使用受到嚴格限制。根據許可條款,該模型僅限研究用途,企業若想開發商業產品,必須先從阿里巴巴 Qwen 團隊獲取單獨許可,意味著該模型非直接生產部署,定位更偏向于測試和原型開發。
參考
Hugging Face
GitHub 頁面
魔搭社區
Multimodal AI on Developer GPUs: Alibaba Releases Qwen2.5-Omni-3B with 50% Lower VRAM Usage and Nearly-7B Model Performance
Qwen swings for a double with 2.5-Omni-3B model that runs on consumer PCs, laptops
本文鏈接:http://www.tebozhan.com/showinfo-45-12696-0.html阿里通義千問 2.5-Omni-3B AI 全模態登場:7B 版 90% 性能,顯存占用減少 53%
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com