Vision
苹果或将推出眼动追踪滚动功能,操作Vision Pro更便捷
近日,有报道称苹果公司正在测试一项新功能,用户将能够利用 Vision Pro 头显的眼动追踪技术,轻松地滚动浏览应用程序。 根据彭博社的科技马克・古尔曼(Mark Gurman)的消息,这一眼动滚动功能不仅适用于苹果自家的应用程序,未来还将开放给第三方开发者使用。 关于这一功能的具体实现方式,目前尚无确切信息。
5/15/2025 11:02:25 AM
AI在线
Cohere发布全新多模态AI模型Aya Vision,提供32B和8B两个版本
人工智能初创公司 Cohere 的非营利研究实验室本周发布了一款多模态 “开放” AI 模型 ——Aya Vision。 该实验室声称,该模型在行业内处于领先地位。 Aya Vision 能够执行多项任务,包括撰写图片说明、回答与照片相关的问题、翻译文本以及生成23种主要语言的摘要。
3/6/2025 2:54:00 PM
AI在线
Apple Intelligence 四月登陆 Vision Pro,加入写作、表情、图像功能
据彭博社记者马克·古尔曼报道,苹果计划最早于四月将 Apple Intelligence 集成至 Vision Pro 头戴设备。 该 AI 套件最初于2024年6月发布,此次将通过 visionOS2.4软件更新引入,预计本周向开发者开放。 就在 Apple Intelligence 于2024年6月首次发布几周后,Gurman 报道称,苹果正寻求将其 AI 工具套件引入 Vision Pro,尽管关于如何重新构想这些工具以实现混合现实体验仍存在一些问题。
2/17/2025 9:34:00 AM
AI在线
微软 Phi-3-vision 基准测试:和 Claude 3-haiku、Gemini 1.0 Pro 相当
微软在 Build 2024 大会上发布了 Phi-3 家族的最新成员--Phi-3-vision,主打“视觉能力”,能够理解图文内容,同时据称可以在移动平台上流畅高效运行。Phi-3-vision 是一款多模态小型语言模型(SLM),主要用于本地 AI 场景,该模型参数量为 42 亿,上下文长度为 128k token,能够为常规视觉推理任务和其他任务提供支持。那么 Phi-3-vision 有多厉害?微软今天发布了新的论文 [PDF],表示该 SLM 和 Claude 3-haiku、Gemini 1.0 Pr
5/28/2024 8:45:08 AM
故渊
马斯克 xAI 展示首个多模态模型 Grok-1.5V:可将流程图转成 Python 代码
感谢马斯克旗下人工智能公司 xAI 于 3 月下旬推出 Grok-1.5 大语言模型之后,近日再次推出首个多模态模型 Grok-1.5 Vision。xAI 表示将于近期邀请早期测试者和现有的 Grok 用户测试 Grok-1.5 Vision(Grok-1.5V),不仅能理解文本,还能处理文档、图表、截图和照片中的内容。xAI 表示:“Grok-1.5V 在多学科推理、文档理解、科学图表、表格处理、屏幕截图和照片等多个领域都能媲美现有的前沿多模态模型”。xAI 在官方新闻稿中演示了 7 个 Grok-1.5V 案
4/13/2024 1:35:07 PM
故渊
融合视觉能力,OpenAI 向开发人员提供 GPT-4 Turbo with Vision
感谢OpenAI 宣布,具有视觉能力的最新 GPT-4 Turbo 模型 GPT-4 Turbo with Vision 现已通过 OpenAI API 向开发人员普遍提供。据IT之家了解,该模型延续了 GPT-4 Turbo 系列 128,000 个 token 的窗口大小以及截止至 2023 年 12 月的知识库,最大的革新之处在于其新增的视觉理解能力。在过去,开发者需要调用不同的模型来处理文本和图像信息,而 GPT-4 Turbo with Vision 则将两者合二为一,极大简化了开发流程,并带来了广泛的应
4/10/2024 6:55:27 AM
远洋
传苹果VisionPro 4或5月登陆中国,大厂应用火速跟进
机器之能报道编辑:SiaApple Vision Pro 目前仅在美国推出,但从一开始就有报道称它将很快在国际上推广。《华尔街新闻》快讯报道,供应链预计该产品最早可能于 4 月份在中国发布。它明确表示“最早四月(但不晚于五月)”。目前还没有更多细节,但供应链还声称“工信部的注册程序已接近完成”。消息预计,首批 Apple Vision Pro 在中国供应“将会紧张”。据南华早报报道,国内已有数十家商家愿意以官方价格的两倍将该产品从美国运送到中国。目前社交媒体已经在流传国内海关扣留 4 台入境 Vision Pro
2/8/2024 11:04:00 AM
机器之能
- 1
资讯热榜
阿里推出 AI 医学助手 App“氢离子”:收录千万级核心期刊文献,还可查疾病、找药品
Lovart 实战深度测评!仅需4小时帮你完成一整套品牌全案设计!
性能比肩 Gemini-2.5 pro、o4-mini:阿里通义千问 Qwen 3 推理模型超级进化,现已开源
Meta 被指控盗用 2000 余部成人影片训练 AI,或面临 3.5 亿美元天价赔偿
刷新无监督异常检测上限!首提「匹配代价滤波for异常检测」范式 | ICML'25
OpenAI 董事会主席:如果你想快速烧掉百万美元,就开发自己的 AI 模型吧
AI和云基础设施初创企业E2B如何成为88%的财富100强企业的必备选择
行业首个 100% 开源的企业级智能体,京东云开源 JoyAgent
标签云
人工智能
AI
OpenAI
AIGC
模型
ChatGPT
DeepSeek
AI绘画
谷歌
机器人
数据
大模型
Midjourney
开源
智能
用户
Meta
微软
GPT
学习
技术
图像
Gemini
AI创作
马斯克
论文
智能体
Anthropic
英伟达
代码
算法
训练
Stable Diffusion
芯片
蛋白质
开发者
腾讯
生成式
LLM
苹果
Claude
神经网络
AI新词
3D
研究
机器学习
生成
AI for Science
Agent
xAI
计算
人形机器人
Sora
AI视频
GPU
AI设计
百度
华为
搜索
大语言模型
工具
场景
字节跳动
具身智能
RAG
大型语言模型
预测
深度学习
伟达
视觉
Transformer
AGI
视频生成
神器推荐
亚马逊
Copilot
DeepMind
架构
模态
应用