蘋果發(fā)布 FastVLM 視覺語言模型，為新型智能眼鏡等穿戴設(shè)備鋪路

2025/5/13 14:48:39 來源：IT之家作者：問舟責(zé)編：問舟

評論：

IT之家 5 月 13 日消息，蘋果機器學(xué)習(xí)團隊上周在 GitHub 發(fā)布并開源了一款視覺語言模型 ——FastVLM，提供 0.5B、1.5B、7B 三個版本。

據(jù)介紹，該模型基于蘋果自研 MLX 框架開發(fā)并借助 LLaVA 代碼庫進行訓(xùn)練，專為 Apple Silicon 設(shè)備的端側(cè) AI 運算進行優(yōu)化。

技術(shù)文檔顯示，F(xiàn)astVLM 在保持精度的前提下，實現(xiàn)了高分辨率圖像處理的近實時響應(yīng)，同時所需的計算量比同類模型要少得多。

蘋果發(fā)布 FastVLM 視覺語言模型，為新型智能眼鏡等穿戴設(shè)備鋪路

其核心是一個名為 FastViTHD 的混合視覺編碼器。蘋果團隊表示，該編碼器“專為在高分辨率圖像上實現(xiàn)高效的 VLM 性能而設(shè)計”，其處理速度較同類模型提升 3.2 倍，體積卻僅有 3.6 分之一。

亮點
FastViTHD 新型混合視覺編碼器：專為高分辨率圖像優(yōu)化設(shè)計，可減少令牌輸出量并顯著縮短編碼時間
最小模型版本性能對比：較 LLaVA-OneVision-0.5B 模型實現(xiàn)首詞元（Token）響應(yīng)速度提升 85 倍，視覺編碼器體積縮小 3.4 倍
搭配 Qwen2-7B 大語言模型版本：使用單一圖像編碼器即超越 Cambrian-1-8B 等近期研究成果，首詞元響應(yīng)速度提升 7.9 倍
配套 iOS 演示應(yīng)用：實機展示移動端模型性能表現(xiàn)

蘋果技術(shù)團隊指出：“基于對圖像分辨率、視覺延遲、詞元數(shù)量與 LLM 大小的綜合效率分析，我們開發(fā)出 FastVLM—— 該模型在延遲、模型大小和準(zhǔn)確性之間實現(xiàn)了最優(yōu)權(quán)衡。”

該技術(shù)的應(yīng)用場景指向蘋果正在研發(fā)的智能眼鏡類穿戴設(shè)備。多方信息顯示，蘋果計劃于 2027 年推出對標(biāo) Meta Ray-Bans 的 AI 眼鏡，同期或?qū)l(fā)布搭載攝像頭的 AirPods 設(shè)備。

FastVLM 的本地化處理能力可有效支持此類設(shè)備脫離云端實現(xiàn)實時視覺交互。IT之家查詢獲悉，MLX 框架允許開發(fā)者在 Apple 設(shè)備本地訓(xùn)練和運行模型，同時兼容主流 AI 開發(fā)語言。FastVLM 的推出證實蘋果正構(gòu)建完整的端側(cè) AI 技術(shù)生態(tài)。

參考資料：

https://github.com/apple/ml-fastvlm?tab=readme-ov-file
[2412.13303] FastVLM: Efficient Vision Encoding for Vision Language Models

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

在线观看日韩三级视频,国产久久精品在线播放,精品人妻伦一二三区久久简爱,久久亚洲精品一区二区,日韩人妻一区二区av,欧美黑人又粗又大高潮喷水,国产91精品在线播放,国产欧美日韩一区二区三视频,亚洲一区二区伦理在线

蘋果發(fā)布 FastVLM 視覺語言模型，為新型智能眼鏡等穿戴設(shè)備鋪路

亮點