AI在线 AI在线

​DeepMind 首席执行官预测 2026 年三大 AI 发展趋势

在近期举办的 Axios AI 峰会上,谷歌 DeepMind 的首席执行官德米斯・哈萨比斯(Demis Hassabis)分享了他对未来一年 AI 领域的展望。 他指出,2026 年将是多模态模型、互动视频世界和更可靠的 AI 代理迅速发展的关键一年。 哈萨比斯强调,DeepMind 的最新 AI 模型 “Gemini” 已在多模态能力方面取得了显著进展。

在近期举办的 Axios AI + 峰会上,谷歌 DeepMind 的首席执行官德米斯・哈萨比斯(Demis Hassabis)分享了他对未来一年 AI 领域的展望。他指出,2026 年将是多模态模型、互动视频世界和更可靠的 AI 代理迅速发展的关键一年。

哈萨比斯强调,DeepMind 的最新 AI 模型 “Gemini” 已在多模态能力方面取得了显著进展。他提到,该模型不仅能够描述情节,还能深入理解场景的深层含义。例如,在影片《搏击俱乐部》中,AI 将一个角色摘掉戒指的动作解读为对日常生活的哲学性放弃。这种深度理解使得 AI 能够生成更复杂的输出,比如信息图表等,之前的技术无法实现这一点。

他还提到,AI 代理将在一年内能够 “接近” 自主处理复杂任务的能力。这一进展符合他在 2024 年 5 月时提出的时间表。DeepMind 的目标是创建一个跨设备的通用助手,帮助用户管理日常生活。为实现这一目标,DeepMind 还在研发名为 “Genie 3” 的 “世界模型”,这种模型能够生成可互动的可探索视频空间,让用户沉浸于虚拟世界中。

划重点:

🌟 多模态模型的进步将推动 AI 理解和生成复杂内容的能力。  

🛠️ AI 代理将在不久的将来接近自主处理复杂任务的水平。  

🌍 DeepMind 正在研发互动视频空间,为用户提供全新的沉浸式体验。  

相关资讯

OpenAI 升级 ChatGPT 语音模式,体验更自然对话

OpenAI 升级 ChatGPT 语音模式,体验更自然对话

OpenAI 在去年推出的 GPT-4o 基础上,再次对其高级语音模式进行了重大的更新,使得语音交流变得更加自然和贴近人类的对话方式。 这一先进的功能依托于原生的多模态模型,能够快速响应音频输入,最快在232毫秒内作出反应,平均响应时间为320毫秒,几乎与人类的对话速度不相上下。 在今年年初,OpenAI 已经对这一语音模式进行了小幅更新,改善了打断频率和口音处理。
6/9/2025 11:00:56 AM AI在线
苹果即将在2025年国际计算机视觉大会亮相

苹果即将在2025年国际计算机视觉大会亮相

在全球科技界备受瞩目的国际计算机视觉大会(ICCV)即将于2025年10月19日至23日在美丽的檀香山召开,苹果公司确认将携带多项重要研究成果亮相这一盛会。 此次大会旨在聚焦计算机视觉领域的前沿技术和研究进展,苹果也不例外,将展示他们在多模态模型和视频生成等热点领域的最新研究。 图源备注:图片由AI生成,图片授权服务商Midjourney苹果公司将提交并展示八篇论文,涵盖多种重要议题。
10/14/2025 2:46:25 PM AI在线
谷歌Gemini 3发布后迅速登顶LMArena排行榜,马斯克与阿尔特曼齐送祝贺

谷歌Gemini 3发布后迅速登顶LMArena排行榜,马斯克与阿尔特曼齐送祝贺

谷歌发布Gemini 3后,其中Gemini 3 Pro以1501 Elo刷新LMArena公开榜单历史最高分,超越GPT-5.1、Claude 4. 5 与Grok-4.1,成为目前评分最高的多模态模型。 性能方面,Gemini 3 Pro在“人类终极考试”获37.5%、GPQA Diamond达91.9%,并在MMMU-Pro与Video-MMMU分别取得81%与87.6%,显示其在科学、数学及视频理解任务上全面领先。
11/24/2025 9:26:48 AM AI在线