AI在线 AI在线

苹果 FastVLM 上线:5分钟体验85倍速视觉 AI,数据永不出设备

AIbase报道 - Apple 几个月前发布的 FastVLM 视觉语言模型现已向公众开放,用户可在搭载 Apple Silicon 芯片的 Mac 上直接体验这项革命性技术。 FastVLM 是一种能够提供近乎即时高分辨率图像处理的视觉语言模型,基于 Apple 专为 Apple Silicon 设计的开放 ML 框架 MLX 构建。 相比同类模型,FastVLM 在视频字幕处理速度上提升了85倍,同时体积缩小了3倍以上。

AIbase报道 - Apple 几个月前发布的 FastVLM 视觉语言模型现已向公众开放,用户可在搭载 Apple Silicon 芯片的 Mac 上直接体验这项革命性技术。

FastVLM 是一种能够提供近乎即时高分辨率图像处理的视觉语言模型,基于 Apple 专为 Apple Silicon 设计的开放 ML 框架 MLX 构建。相比同类模型,FastVLM 在视频字幕处理速度上提升了85倍,同时体积缩小了3倍以上。

Apple,苹果发布会,iPhone,Apple Watch

多平台可用,浏览器直接体验

Apple 在完善项目后,FastVLM 不仅在 GitHub 上开源,还登陆了 Hugging Face 平台。用户现在可以直接在浏览器中加载轻量级的 FastVLM-0.5B 版本,无需复杂安装过程即可体验其强大功能。

根据实测,在16GB M2Pro MacBook Pro 上,模型加载需要几分钟时间。加载完成后,模型能够实时准确描述用户外貌、背景环境、面部表情以及视野中的各种物体。

智能交互功能丰富

该模型支持多种预设提示,用户可以要求模型:

  • 用一句话描述所见场景
  • 识别衣物颜色
  • 读取可见文本内容
  • 分析情感和动作
  • 识别手中物体

高级用户还可结合虚拟摄像头应用,观察模型如何即时详细描述复杂的多场景视频内容。

本地化运行的隐私优势

FastVLM 的一大亮点是完全在浏览器本地运行,数据永不离开设备,甚至支持离线使用。这种设计为可穿戴设备和辅助技术应用提供了理想解决方案,轻便性和低延迟特性为更广泛的应用场景奠定了基础。

目前浏览器演示使用的是5亿参数的轻量级版本,FastVLM 系列还包含15亿和70亿参数的更强大变体,能够提供更优异的性能表现,尽管这些大型模型可能无法直接在浏览器中运行。

相关资讯

​阿里巴巴发布 Qwen3 升级版,适配苹果 MLX 架构

阿里巴巴集团宣布推出其旗舰人工智能模型 Qwen3的全新升级版,该版本已成功适配苹果的 MLX 架构,这意味着苹果智能(Apple Intelligence)在中国市场的推出似乎指日可待。 根据阿里巴巴的消息,新的 Qwen3版本具备更强的性能,支持119种语言和方言,进一步提升了用户体验。 在此前的 iOS18.4版本中,苹果智能已经开始支持简体中文,但其生成式人工智能功能在中国大陆尚未正式上线。
6/17/2025 9:02:17 AM
AI在线

苹果发布FastVLM模型,可在iPhone上运行的极速视觉语言模型

苹果正式发布FastVLM,一款专为高分辨率图像处理优化的视觉语言模型(VLM),以其在iPhone等移动设备上的高效运行能力和卓越性能引发行业热议。 FastVLM通过创新的FastViTHD视觉编码器,实现了高达85倍的编码速度提升,为实时多模态AI应用铺平了道路。 技术核心:FastViTHD编码器与高效设计FastVLM的核心在于其全新设计的FastViTHD混合视觉编码器,针对高分辨率图像处理进行了深度优化。
5/12/2025 3:00:52 PM
AI在线

苹果放大招!FastVLM 让视觉语言模型在 iPhone 上飞速 “狂飙”

苹果最近又搞了个大新闻,偷偷摸摸地发布了一个叫 FastVLM 的模型。 听名字可能有点懵,但简单来说,这玩意儿就是让你的 iPhone 瞬间拥有了“火眼金睛”,不仅能看懂图片里的各种复杂信息,还能像个段子手一样跟你“贫嘴”!而且最厉害的是,它速度快到飞起,苹果官方宣称,首次给你“贫嘴”的速度比之前的一些模型快了足足85倍!这简直是要逆天啊!视觉语言模型的 “成长烦恼”现在的视觉语言模型,就像个不断进化的小天才,能同时理解图像和文本信息。 它的应用可广了,从帮咱们理解图片里的内容,到辅助创作图文并茂的作品,都不在话下。
5/12/2025 3:00:52 PM
AI在线
  • 1