DeepMind 首席执行官预测 2026 年三大 AI 发展趋势

作者：AI在线 2025-12-08 10:57

在近期举办的 Axios AI 峰会上，谷歌 DeepMind 的首席执行官德米斯・哈萨比斯（Demis Hassabis）分享了他对未来一年 AI 领域的展望。他指出，2026 年将是多模态模型、互动视频世界和更可靠的 AI 代理迅速发展的关键一年。哈萨比斯强调，DeepMind 的最新 AI 模型 “Gemini” 已在多模态能力方面取得了显著进展。

在近期举办的 Axios AI + 峰会上，谷歌 DeepMind 的首席执行官德米斯・哈萨比斯（Demis Hassabis）分享了他对未来一年 AI 领域的展望。他指出，2026 年将是多模态模型、互动视频世界和更可靠的 AI 代理迅速发展的关键一年。

哈萨比斯强调，DeepMind 的最新 AI 模型 “Gemini” 已在多模态能力方面取得了显著进展。他提到，该模型不仅能够描述情节，还能深入理解场景的深层含义。例如，在影片《搏击俱乐部》中，AI 将一个角色摘掉戒指的动作解读为对日常生活的哲学性放弃。这种深度理解使得 AI 能够生成更复杂的输出，比如信息图表等，之前的技术无法实现这一点。

他还提到，AI 代理将在一年内能够 “接近” 自主处理复杂任务的能力。这一进展符合他在 2024 年 5 月时提出的时间表。DeepMind 的目标是创建一个跨设备的通用助手，帮助用户管理日常生活。为实现这一目标，DeepMind 还在研发名为 “Genie 3” 的 “世界模型”，这种模型能够生成可互动的可探索视频空间，让用户沉浸于虚拟世界中。

划重点：
🌟 多模态模型的进步将推动 AI 理解和生成复杂内容的能力。
🛠️ AI 代理将在不久的将来接近自主处理复杂任务的水平。
🌍 DeepMind 正在研发互动视频空间，为用户提供全新的沉浸式体验。

OpenAI 升级 ChatGPT 语音模式，体验更自然对话

OpenAI 在去年推出的 GPT-4o 基础上，再次对其高级语音模式进行了重大的更新，使得语音交流变得更加自然和贴近人类的对话方式。这一先进的功能依托于原生的多模态模型，能够快速响应音频输入，最快在232毫秒内作出反应，平均响应时间为320毫秒，几乎与人类的对话速度不相上下。在今年年初，OpenAI 已经对这一语音模式进行了小幅更新，改善了打断频率和口音处理。

6/9/2025 11:00:56 AM AI在线

苹果即将在2025年国际计算机视觉大会亮相

在全球科技界备受瞩目的国际计算机视觉大会（ICCV）即将于2025年10月19日至23日在美丽的檀香山召开，苹果公司确认将携带多项重要研究成果亮相这一盛会。此次大会旨在聚焦计算机视觉领域的前沿技术和研究进展，苹果也不例外，将展示他们在多模态模型和视频生成等热点领域的最新研究。图源备注：图片由AI生成，图片授权服务商Midjourney苹果公司将提交并展示八篇论文，涵盖多种重要议题。

10/14/2025 2:46:25 PM AI在线

谷歌Gemini 3发布后迅速登顶LMArena排行榜，马斯克与阿尔特曼齐送祝贺

谷歌发布Gemini 3后，其中Gemini 3 Pro以1501 Elo刷新LMArena公开榜单历史最高分，超越GPT-5.1、Claude 4. 5 与Grok-4.1，成为目前评分最高的多模态模型。性能方面，Gemini 3 Pro在“人类终极考试”获37.5%、GPQA Diamond达91.9%，并在MMMU-Pro与Video-MMMU分别取得81%与87.6%，显示其在科学、数学及视频理解任务上全面领先。

11/24/2025 9:26:48 AM AI在线

​DeepMind 首席执行官预测 2026 年三大 AI 发展趋势

相关资讯

OpenAI 升级 ChatGPT 语音模式，体验更自然对话

苹果即将在2025年国际计算机视觉大会亮相

谷歌Gemini 3发布后迅速登顶LMArena排行榜，马斯克与阿尔特曼齐送祝贺

DeepMind 首席执行官预测 2026 年三大 AI 发展趋势