5 月 30 日消息,Xiaomi MiMo 官方公眾號今日發文宣布,小米多模態大模型 Xiaomi MiMo-VL 現已正式開源。官方表示,其在圖片、視頻、語言的通用問答和理解推理等多個任務上,大幅領先同尺寸標桿多模態模型 Qwen2.5-VL-7B,并且在 GUI Grounding 任務上比肩專用模型,為 Agent 時代而來。
MiMo-VL-7B 在保持 MiMo-7B 純文本推理能力的同時,在多模態推理任務上,僅用 7B 參數規模,在奧林匹克競賽(OlympiadBench)和多個數學競賽(MathVision、MathVerse)大幅領先 10 倍參數大的阿里 Qwen-2.5-VL-72B 和 QVQ-72B-Preview,也超越閉源模型 GPT-4o。
在評估真實用戶體驗的內部大模型競技場中,MiMo-VL-7B 超越 GPT-4o,成為開源模型第一。
其能夠完成復雜圖片推理和問答等任務,在長達 10 多步的 GUI 操作上,MiMo-VL-7B 也展示了不錯的潛力,甚至能幫你加購小米 SU7 至心愿單。
其采用了高質量的預訓練數據以及創新的混合在線強化學習算法(Mixed On-policy Reinforcement Learning, MORL):
多階段預訓練:
收集、清洗、合成了高質量的預訓練多模態數據,涵蓋圖片-文本對、視頻-文本對、GUI 操作序列等數據類型,總計 2.4T tokens。通過分階段調整不同類型數據的比例,強化長程多模態推理的能力。
混合在線強化學習:
混合文本推理、多模態感知 + 推理、RLHF 等反饋信號,并通過在線強化學習算法穩定加速訓練,全方位提升模型推理、感知性能和用戶體驗。
MiMo-VL-7B 已開源 RL 前后兩個模型,附開源鏈接:https://huggingface.co/XiaomiMiMo及相關技術報告:https://github.com/XiaomiMiMo/MiMo-VL/blob/main/MiMo-VL-Technical-Report.pdf
MiMo-VL-7B 支持 50 + 測評任務的框架也已經開源至 GitHub:https://github.com/XiaomiMiMo/lmms-eval
本文鏈接:http://www.tebozhan.com/showinfo-45-13292-0.html小米多模態大模型 MiMo-VL 開源,官方稱多方面領先 Qwen2.5-VL-7B
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: AI編程時代,程序員將何去何從?