1 月 26 日消息,Hugging Face 發布了兩款全新多模態模型SmolVLM-256M和SmolVLM-500M,其中SmolVLM-256M號稱是世界上最小的視覺語言模型(Video Language Model)。
據悉,相應模型主要基于 Hugging Face團隊去年訓練的 80B參數模型蒸餾而成,號稱在性能和資源需求之間實現了平衡,官方稱 SmolVLM-256M / 500M 兩款模型均可“開箱即用”,可以直接部署在transformer MLX和ONNX平臺上。
具體技術層面,SmolVLM-256M / 500M 兩款模型均采用SigLIP作為圖片編碼器,使用 SmolLM2作為文本編碼器。其中 SmolVLM-256M是目前最小的多模態模型,可以接受任意序列的圖片和文本輸入并生成文字輸出,該模型功能包括描述圖片內容、為短視頻生成字幕、處理PDF 等。Hugging Face 稱由于該模型整體輕巧,可在移動平臺輕松運行,僅需不到1GB的GPU顯存便可在單張圖片上完成推理。
而 SmolVLM-500M針對需要更高性能的場景而設計,Hugging Face稱相關模型非常適合部署在企業運營環境中,該模型推理單張圖片僅需1.23GB的GPU顯存,相對 SmolVLM-256M 雖然負載更大,但推理輸出的內容更精準。
注意到,兩款模型均采用Apache 2.0開源授權,研究團隊提供了基于transformer和WebGUI的示例程序。所有模型及其演示已公開便于開發者下載和使用,具體頁面可(點此訪問)。
本文鏈接:http://www.tebozhan.com/showinfo-45-10215-0.htmlHugging Face 推出號稱“世界上最小的視覺語言模型”SmolVLM-256M
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com