苹果即将在2025年国际计算机视觉大会亮相

作者：AI在线 2025-10-14 02:46

在全球科技界备受瞩目的国际计算机视觉大会（ICCV）即将于2025年10月19日至23日在美丽的檀香山召开，苹果公司确认将携带多项重要研究成果亮相这一盛会。此次大会旨在聚焦计算机视觉领域的前沿技术和研究进展，苹果也不例外，将展示他们在多模态模型和视频生成等热点领域的最新研究。图源备注：图片由AI生成，图片授权服务商Midjourney苹果公司将提交并展示八篇论文，涵盖多种重要议题。

在全球科技界备受瞩目的国际计算机视觉大会（ICCV）即将于2025年10月19日至23日在美丽的檀香山召开，苹果公司确认将携带多项重要研究成果亮相这一盛会。此次大会旨在聚焦计算机视觉领域的前沿技术和研究进展，苹果也不例外，将展示他们在多模态模型和视频生成等热点领域的最新研究。

超级计算机数据中心 (1)

图源备注：图片由AI生成，图片授权服务商Midjourney

苹果公司将提交并展示八篇论文，涵盖多种重要议题。其中，涉及的主题包括 “文本到视频对齐的评估方法”、“多模态大语言模型中的三维空间理解能力”，以及 “可扩展的视频生成方法” 等，展现出苹果在人工智能和计算机视觉领域的深厚实力和创新能力。此外，苹果机器学习应用研究部经理 C. Thomas 博士也将作为主旨演讲者参与大会，分享他对当前技术趋势的见解。

值得注意的是，苹果还将参与 “计算机视觉领域女性研讨会”，强调对女性科技人才的支持与倡导。会议中，苹果的研究人员 Patricia Vitoria Carrera 和 Tanya Glozman 将担任导师，与与会者深入交流经验与见解。

以下是苹果将在2025ICCV 大会上展示的八篇论文题目:

1. ETVA:通过细粒度问题生成与回答实现文本到视频对齐的评估

2. MM-Spatial:探索多模态大语言模型中的三维空间理解能力

3. 原生多模态模型的扩展规律研究

4. 稳定扩散模型在视觉上下文学习中的隐性优势

5. STIV:可扩展的文本与图像条件化视频生成方法

6. UINavBench:交互式数字智能体综合评估框架

7. 基于多模态提示的统一开放世界分割技术

8. UniVG:用于统一图像生成与编辑的通用扩散模型

苹果的参与标志着其在计算机视觉和人工智能领域的持续投入和创新，期待他们在大会上的精彩表现，为未来的科技发展带来新的启示。

OpenAI 升级 ChatGPT 语音模式，体验更自然对话

OpenAI 在去年推出的 GPT-4o 基础上，再次对其高级语音模式进行了重大的更新，使得语音交流变得更加自然和贴近人类的对话方式。这一先进的功能依托于原生的多模态模型，能够快速响应音频输入，最快在232毫秒内作出反应，平均响应时间为320毫秒，几乎与人类的对话速度不相上下。在今年年初，OpenAI 已经对这一语音模式进行了小幅更新，改善了打断频率和口音处理。

6/9/2025 11:00:56 AM AI在线

谷歌Gemini 3发布后迅速登顶LMArena排行榜，马斯克与阿尔特曼齐送祝贺

谷歌发布Gemini 3后，其中Gemini 3 Pro以1501 Elo刷新LMArena公开榜单历史最高分，超越GPT-5.1、Claude 4. 5 与Grok-4.1，成为目前评分最高的多模态模型。性能方面，Gemini 3 Pro在“人类终极考试”获37.5%、GPQA Diamond达91.9%，并在MMMU-Pro与Video-MMMU分别取得81%与87.6%，显示其在科学、数学及视频理解任务上全面领先。

11/24/2025 9:26:48 AM AI在线

法国 AI 公司 Mistral 发布新模型，力求与 OpenAI 和谷歌保持竞争

法国人工智能初创公司 Mistral 于周二发布了一系列新模型，旨在追赶全球领先的 AI 实验室如谷歌、OpenAI 和 DeepSeek。此次发布紧随 DeepSeek 和谷歌近期的模型更新，显示出全球 AI 实验室在研究前沿和商业运营方面的激烈竞争。 Mistral 此次推出了一个大型模型，声称是 “世界上最好的开放权重多模态和多语言模型”。

12/3/2025 10:01:47 AM AI在线

苹果即将在2025年国际计算机视觉大会亮相

相关资讯

OpenAI 升级 ChatGPT 语音模式，体验更自然对话

谷歌Gemini 3发布后迅速登顶LMArena排行榜，马斯克与阿尔特曼齐送祝贺

​法国 AI 公司 Mistral 发布新模型，力求与 OpenAI 和谷歌保持竞争

法国 AI 公司 Mistral 发布新模型，力求与 OpenAI 和谷歌保持竞争