8 月 6 日消息,小紅書 hi lab 研發并開源的首個多模態大模型 dots.vlm1 今日正式發布,借助一個從零訓練的 12 億參數視覺編碼器以及基于 DeepSeek V3 LLM 構建。
小紅書 hi lab 表示,dots.vlm1 在大部分多模態評測集上接近閉源 SoTA 模型的水平,并在文本能力和主流文本模型相當。
NaViT 視覺編碼器:沒有基于成熟視覺編碼器進行微調,完全從零開始訓練,原生支持動態分辨率。同時在文本監督上增加純視覺監督,提升感知能力上限。此外,訓練數據上在傳統的 Image Caption 數據上還引入大量結構化圖片進行原生訓練,提升 VLM 模型的感知能力(例如各類 OCR 能力)。
多模態訓練數據:在傳統思路上,額外引入多種合成數據思路,覆蓋多樣的圖片類型(例如表格 / Chart / 文檔 / Graphics 等)及其描述(例如 Alt Text / Dense Caption / Grounding 等);同時,利用多模態大模型來重寫圖文交錯網頁數據,顯著提升訓練數據質量;
通過大規模預訓練與精細化后訓練調優,dots.vlm1 在視覺感知與推理方面達到了接近 SOTA 的表現,為開源視覺語言模型樹立了新的性能上限,同時在純文本任務中仍保持一定競爭力。
在主要的視覺評測集上,dots.vlm1 的整體表現已接近當前領先模型 Gemini 2.5 Pro 與 Seed-VL1.5 thinking,尤其在 MMMU / MathVision / OCR Reasoning 等多個基準測試中取得了相當競爭力的結果,顯示出較強的圖文理解與推理能力。
在典型的文本推理任務(如 AIME、GPQA、LiveCodeBench)上,dots.vlm1 的表現大致相當于 DeepSeek-R1-0528,在數學和代碼能力上已具備一定的通用性,但在 GPQA 等更多樣的推理任務上仍存在差距。
總體來看,dots.vlm1 在視覺多模態能力方面已接近 SOTA 水平,在文本推理方面達到了主流模型的性能。然而,在部分細分任務上仍與最優結果存在一定距離,需要在架構設計與訓練數據上進一步優化。
復雜圖表推理樣例:
STEM 解題樣例:
長尾識別解題樣例:
視覺推理樣例:
附 dots.vlm1 開源地址:
https://github.com/rednote-hilab/dots.vlm1
本文鏈接:http://www.tebozhan.com/showinfo-45-25984-0.html小紅書首個多模態 AI 大模型 dots.vlm1 發布并開源,基于 DeepSeek V3 LLM
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com