AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

蘋果發布 FastVLM 視覺語言模型,為新型智能眼鏡等穿戴設備鋪路

來源: 責編: 時間:2025-05-15 09:50:57 64觀看
導讀 5 月 13 日消息,蘋果機器學習團隊上周在 GitHub 發布并開源了一款視覺語言模型 ——FastVLM,提供 0.5B、1.5B、7B 三個版本。據介紹,該模型基于蘋果自研 MLX 框架開發并借助LLaVA 代碼庫進行訓練,專為 Apple Sili

5 月 13 日消息,蘋果機器學習團隊上周在 GitHub 發布并開源了一款視覺語言模型 ——FastVLM,提供 0.5B、1.5B、7B 三個版本。Kzf28資訊網——每日最新資訊28at.com

據介紹,該模型基于蘋果自研 MLX 框架開發并借助LLaVA 代碼庫進行訓練,專為 Apple Silicon 設備的端側 AI 運算進行優化。Kzf28資訊網——每日最新資訊28at.com

技術文檔顯示,FastVLM 在保持精度的前提下,實現了高分辨率圖像處理的近實時響應,同時所需的計算量比同類模型要少得多。Kzf28資訊網——每日最新資訊28at.com

Kzf28資訊網——每日最新資訊28at.com

其核心是一個名為 FastViTHD 的混合視覺編碼器。蘋果團隊表示,該編碼器“專為在高分辨率圖像上實現高效的 VLM 性能而設計”,其處理速度較同類模型提升 3.2 倍,體積卻僅有 3.6 分之一。Kzf28資訊網——每日最新資訊28at.com

亮點

FastViTHD 新型混合視覺編碼器:專為高分辨率圖像優化設計,可減少令牌輸出量并顯著縮短編碼時間Kzf28資訊網——每日最新資訊28at.com

最小模型版本性能對比:較 LLaVA-OneVision-0.5B 模型實現首詞元(Token)響應速度提升 85 倍,視覺編碼器體積縮小 3.4 倍Kzf28資訊網——每日最新資訊28at.com

搭配 Qwen2-7B 大語言模型版本:使用單一圖像編碼器即超越 Cambrian-1-8B 等近期研究成果,首詞元響應速度提升 7.9 倍Kzf28資訊網——每日最新資訊28at.com

配套 iOS 演示應用:實機展示移動端模型性能表現Kzf28資訊網——每日最新資訊28at.com

Kzf28資訊網——每日最新資訊28at.com

蘋果技術團隊指出:“基于對圖像分辨率、視覺延遲、詞元數量與LLM 大小的綜合效率分析,我們開發出 FastVLM—— 該模型在延遲、模型大小和準確性之間實現了最優權衡。”Kzf28資訊網——每日最新資訊28at.com

該技術的應用場景指向蘋果正在研發的智能眼鏡類穿戴設備。多方信息顯示,蘋果計劃于 2027 年推出對標 Meta Ray-Bans 的 AI 眼鏡,同期或將發布搭載攝像頭的 AirPods 設備。Kzf28資訊網——每日最新資訊28at.com

FastVLM 的本地化處理能力可有效支持此類設備脫離云端實現實時視覺交互。查詢獲悉,MLX 框架允許開發者在 Apple 設備本地訓練和運行模型,同時兼容主流 AI 開發語言。FastVLM 的推出證實蘋果正構建完整的端側 AI 技術生態。Kzf28資訊網——每日最新資訊28at.com

參考資料:Kzf28資訊網——每日最新資訊28at.com

https://github.com/apple/ml-fastvlm?tab=readme-ov-fileKzf28資訊網——每日最新資訊28at.com

[2412.13303] FastVLM: Efficient Vision Encoding for Vision Language ModelsKzf28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-12845-0.html蘋果發布 FastVLM 視覺語言模型,為新型智能眼鏡等穿戴設備鋪路

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: SDS 技術首次用于音頻:英偉達攜手 MIT 推 Audio-SDS,參數化控制 AI 音效生成

下一篇: OpenAI 高管:AI 未來可自主生成知識,商業與科研迎來革命

標簽:
  • 熱門焦點
Top