Vision

苹果或将推出眼动追踪滚动功能，操作Vision Pro更便捷

苹果或将推出眼动追踪滚动功能，操作Vision Pro更便捷

近日，有报道称苹果公司正在测试一项新功能，用户将能够利用 Vision Pro 头显的眼动追踪技术，轻松地滚动浏览应用程序。根据彭博社的科技马克・古尔曼（Mark Gurman）的消息，这一眼动滚动功能不仅适用于苹果自家的应用程序，未来还将开放给第三方开发者使用。关于这一功能的具体实现方式，目前尚无确切信息。

5/15/2025 11:02:25 AM AI在线

Cohere发布全新多模态AI模型Aya Vision，提供32B和8B两个版本

Cohere发布全新多模态AI模型Aya Vision，提供32B和8B两个版本

人工智能初创公司 Cohere 的非营利研究实验室本周发布了一款多模态 “开放” AI 模型 ——Aya Vision。该实验室声称，该模型在行业内处于领先地位。 Aya Vision 能够执行多项任务，包括撰写图片说明、回答与照片相关的问题、翻译文本以及生成23种主要语言的摘要。

3/6/2025 2:54:00 PM AI在线

Apple Intelligence 四月登陆 Vision Pro，加入写作、表情、图像功能

Apple Intelligence 四月登陆 Vision Pro，加入写作、表情、图像功能

据彭博社记者马克·古尔曼报道，苹果计划最早于四月将 Apple Intelligence 集成至 Vision Pro 头戴设备。该 AI 套件最初于2024年6月发布，此次将通过 visionOS2.4软件更新引入，预计本周向开发者开放。就在 Apple Intelligence 于2024年6月首次发布几周后，Gurman 报道称，苹果正寻求将其 AI 工具套件引入 Vision Pro，尽管关于如何重新构想这些工具以实现混合现实体验仍存在一些问题。

2/17/2025 9:34:00 AM AI在线

微软 Phi-3-vision 基准测试：和 Claude 3-haiku、Gemini 1.0 Pro 相当

微软 Phi-3-vision 基准测试：和 Claude 3-haiku、Gemini 1.0 Pro 相当

微软在 Build 2024 大会上发布了 Phi-3 家族的最新成员--Phi-3-vision，主打“视觉能力”，能够理解图文内容，同时据称可以在移动平台上流畅高效运行。Phi-3-vision 是一款多模态小型语言模型（SLM），主要用于本地 AI 场景，该模型参数量为 42 亿，上下文长度为 128k token，能够为常规视觉推理任务和其他任务提供支持。那么 Phi-3-vision 有多厉害？微软今天发布了新的论文 [PDF]，表示该 SLM 和 Claude 3-haiku、Gemini 1.0 Pr

5/28/2024 8:45:08 AM 故渊

马斯克 xAI 展示首个多模态模型 Grok-1.5V：可将流程图转成 Python 代码

马斯克 xAI 展示首个多模态模型 Grok-1.5V：可将流程图转成 Python 代码

感谢马斯克旗下人工智能公司 xAI 于 3 月下旬推出 Grok-1.5 大语言模型之后，近日再次推出首个多模态模型 Grok-1.5 Vision。xAI 表示将于近期邀请早期测试者和现有的 Grok 用户测试 Grok-1.5 Vision（Grok-1.5V），不仅能理解文本，还能处理文档、图表、截图和照片中的内容。xAI 表示：“Grok-1.5V 在多学科推理、文档理解、科学图表、表格处理、屏幕截图和照片等多个领域都能媲美现有的前沿多模态模型”。xAI 在官方新闻稿中演示了 7 个 Grok-1.5V 案

4/13/2024 1:35:07 PM 故渊

融合视觉能力，OpenAI 向开发人员提供 GPT-4 Turbo with Vision

融合视觉能力，OpenAI 向开发人员提供 GPT-4 Turbo with Vision

感谢OpenAI 宣布，具有视觉能力的最新 GPT-4 Turbo 模型 GPT-4 Turbo with Vision 现已通过 OpenAI API 向开发人员普遍提供。据IT之家了解，该模型延续了 GPT-4 Turbo 系列 128,000 个 token 的窗口大小以及截止至 2023 年 12 月的知识库，最大的革新之处在于其新增的视觉理解能力。在过去，开发者需要调用不同的模型来处理文本和图像信息，而 GPT-4 Turbo with Vision 则将两者合二为一，极大简化了开发流程，并带来了广泛的应

4/10/2024 6:55:27 AM 远洋

传苹果VisionPro 4或5月登陆中国，大厂应用火速跟进

传苹果VisionPro 4或5月登陆中国，大厂应用火速跟进

机器之能报道编辑：SiaApple Vision Pro 目前仅在美国推出，但从一开始就有报道称它将很快在国际上推广。《华尔街新闻》快讯报道，供应链预计该产品最早可能于 4 月份在中国发布。它明确表示“最早四月（但不晚于五月）”。目前还没有更多细节，但供应链还声称“工信部的注册程序已接近完成”。消息预计，首批 Apple Vision Pro 在中国供应“将会紧张”。据南华早报报道，国内已有数十家商家愿意以官方价格的两倍将该产品从美国运送到中国。目前社交媒体已经在流传国内海关扣留 4 台入境 Vision Pro

2/8/2024 11:04:00 AM 机器之能

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 6秒视频10秒生成！全新AI视频神器 Grok Imagine 深度体验+元提示词分享最火、最全的Agent记忆综述，NUS、人大、复旦、北大等联合出品后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词） GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！ Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI新词 AI绘画大模型机器人数据 Midjourney 开源 Meta 微软智能用户 GPT 学习英伟达 Gemini 智能体技术马斯克 Anthropic 图像 AI创作训练 LLM 论文 AI for Science 代码腾讯苹果算法 Agent Claude 芯片具身智能 Stable Diffusion xAI 蛋白质人形机器人开发者生成式神经网络机器学习 AI视频 3D 字节跳动大语言模型 RAG Sora 百度研究 GPU 生成华为工具 AGI 计算生成式AI AI设计大型语言模型搜索亚马逊 AI模型视频生成特斯拉 DeepMind 场景 Copilot 深度学习 Transformer 架构 MCP 编程视觉