1 月 24 日消息,Hugging Face 平臺昨日(1 月 23 日)發布博文,宣布推出 SmolVLM-256M-Instruct 和 SmolVLM-500M-Instruct 兩款輕量級 AI 模型,在 AI 算力有限的設備上,最大限度發揮其算力性能。
曾于 2024 年 11 月報道,Hugging Face 平臺發布 SmolVLM AI 視覺語言模型(VLM),僅有 20 億參數,用于設備端推理,憑借其極低的內存占用在同類模型中脫穎而出。
本次推出的 SmolVLM-256M-Instruct 僅有 2.56 億參數,是有史以來發布的最小視覺語言模型,可以在內存低于 1GB 的 PC 上運行,提供卓越的性能輸出。
SmolVLM-500M-Instruct 僅有 5 億參數,主要針對硬件資源限制,幫助開發者迎接大規模數據分析挑戰,實現 AI 處理效率和可訪問性的突破。
SmolVLM 模型具備先進的多模態能力,可以執行圖像描述、短視頻分析以及回答關于 PDF 或科學圖表的問題等任務。正如 Hugging Face 所解釋的:“SmolVLM 構建可搜索數據庫的速度更快、成本更低,其速度可媲美規模 10 倍于其自身的模型”。
模型的開發依賴于兩個專有數據集:The Cauldron 和 Docmatix。The Cauldron 是一個包含 50 個高質量圖像和文本數據集的精選集合,側重于多模態學習,而 Docmatix 則專為文檔理解而定制,將掃描文件與詳細的標題配對以增強理解。
這兩個模型采用更小的視覺編碼器 SigLIP base patch-16/512,而不是 SmolVLM 2B 中使用的更大的 SigLIP 400M SO,通過優化圖像標記的處理方式,減少了冗余并提高了模型處理復雜數據的能力。
SmolVLM 模型能夠以每個標記 4096 像素的速率對圖像進行編碼,這比早期版本中每標記 1820 像素有了顯著改進。
本文鏈接:http://www.tebozhan.com/showinfo-45-10180-0.htmlHugging Face 最小 AI 視覺語言模型登場:2.56 億參數,內存低于 1GB PC 也能駕馭
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com