谷歌拉响通用人工智能警报，首次公开 AI 安全防御蓝图

作者：故渊 2025-04-04 10:25

DeepMind 认为 AGI 即将落地，主张立即行动。AGI 可能将在未来数年实现人类级认知能力，其自主决策特性可能加速医疗、教育等领域的突破，但滥用、目标错位等风险亦需警惕。

科技媒体 WinBuzzer 昨日（4 月 3 日）发布博文，报道称谷歌旗下 DeepMind 最新发布全球 AGI（通用人工智能）安全框架，呼吁在技术失控前建立跨国防护机制。

谷歌 DeepMind 发布《技术性 AGI 安全与保障方法》白皮书，提出应对通用人工智能（AGI）潜在风险的系统性方案。

AI在线援引博文介绍，报告聚焦四大风险领域（滥用、错位、事故、结构性风险），提出通过安全机制设计、透明化研究及行业协作降低危害。

谷歌拉响通用人工智能警报，首次公开 AI 安全防御蓝图

而目标错位是 AGI 核心风险之一。当 AI 为完成任务采取非常规手段（如入侵订票系统获取座位），即产生与人类意图的偏差。DeepMind 通过“放大监督”技术训练 AI 识别正确目标，并利用 AI 自评（如辩论机制）提升复杂场景下的判断力。

DeepMind 提出的国际安全框架摒弃抽象伦理讨论，聚焦技术快速演进中的实际问题，包括组建类似核不扩散条约的跨国评估机构、设立国家级 AI 风险监测中心等。

谷歌 DeepMind 提出强化技术研究、部署预警系统、通过国际机构协调治理三大支柱方案，强调当前亟需限制 AI 网络攻击等危险能力。

谷歌拉响通用人工智能警报，首次公开 AI 安全防御蓝图

DeepMind 的倡议并非孤立行动。竞争对手 Anthropic 于 2024 年 11 月警告需在 18 个月内遏制 AI 失控，并设置能力阈值触发保护机制；Meta 在 2025 年 2 月推出《前沿 AI 框架》，停止公开高危模型。

安全防护已延伸至硬件领域。英伟达 2025 年 1 月推出 NeMo Guardrails 微服务套件，实时拦截有害输出，目前应用于医疗、汽车等行业。

相关标签：

AI 谷歌

谷歌更新 Gemini 2.5 Pro 预览版模型至 06-05 版本，多项 AI 性能基准测试评分提升

谷歌于今年 3 月底发布了 Gemini 2.5 Pro 模型，紧接着又在 4 月推出了面向更广泛用户的轻量级版本 Gemini 2.5 Flash。两者目前仍处于预览阶段，但 Flash 版本已可通过 Gemini App 向全球用户开放体验。目前，谷歌再度更新 Google AI Studio 中的 Gemin 2.5 Pro 模型（更新至 06-05 版本），并声称该模型刷新了多项 AI 性能基准“跑分”

6/6/2025 7:56:28 AM 漾仔

谷歌 AI 搜索引擎被指严重“幻觉”，错误称印度空难失事波音客机为“空中客车”机型

印度一架波音787-8客机坠毁后，谷歌AI搜索误报机型为“空客A330”，引发舆论哗然。谷歌承认AI可能生成错误答案，但免责声明常被忽视。#AI翻车现场##谷歌搜索# 技术需进步，信任更需建立。

6/13/2025 9:57:23 AM 漾仔

谷歌招聘 AI 质量工程师，专门应对“AI 摘要”幻觉问题

AI在线 1 月 7 日消息，据科技媒体 Bleeping Computer 今天报道，谷歌搜索中的“AI 摘要”目前仍存在所谓“AI 幻觉”现象，经常会编造不实信息，并且还会就不同提问方法给出相互矛盾的答案。不过这种现象在以后很有可能逐步减少，最新招聘信息显示，谷歌正在招募工程师来验证 AI 给出的答案，并提升回答质量，重塑搜索体验。谷歌在招聘简介中表示：“我们正在重新定义‘搜索信息’意味着什么。

1/7/2026 9:51:18 PM 潞源（实习）

谷歌拉响通用人工智能警报，首次公开 AI 安全防御蓝图

相关资讯

谷歌更新 Gemini 2.5 Pro 预览版模型至 06-05 版本，多项 AI 性能基准测试评分提升

谷歌 AI 搜索引擎被指严重“幻觉”，错误称印度空难失事波音客机为“空中客车”机型

谷歌招聘 AI 质量工程师，专门应对“AI 摘要”幻觉问题