防止谈天机器人“造谣”，google Deepmind、斯坦福大学钻研人员推出 AI 究竟核对工具

无论当下 AI 谈天机器人有多么强大，都会或多或少存在一大饱受诟病的行为 —— 以看上去令人信服的方式，向用户提供与究竟不符的回答。简单来说，AI 有时会在回答中“满口跑火车”，甚至“造谣”。图源 Pixabay防止 AI 大模型出现这种行为并非易事，且是一项技术性的挑战。不过据外媒 Marktechpost 报道，google DeepMind 和斯坦福大学似乎找到了某种变通办法。钻研人员推出了一种基于大言语模型的工具 —— 搜刮增强究竟评价器（IT之家注：原名为 Search-Augmented Factuality

无论当下 AI 谈天机器人有多么强大，都会或多或少存在一大饱受诟病的行为 —— 以看上去令人信服的方式，向用户提供与究竟不符的回答。简单来说，AI 有时会在回答中“满口跑火车”，甚至“造谣”。

图源 Pixabay

防止 AI 大模型出现这种行为并非易事，且是一项技术性的挑战。不过据外媒 Marktechpost 报道，google DeepMind 和斯坦福大学似乎找到了某种变通办法。

钻研人员推出了一种基于大言语模型的工具 —— 搜刮增强究竟评价器（IT之家注：原名为 Search-Augmented Factuality Evaluator，简称 SAFE），可对谈天机器人生成的长回覆举行究竟核对。其钻研结果与实验代码、数据集现已公布，点此查看

该零碎可通过四个步骤对谈天机器人生成的回覆举行分析、处理和评价，以验证准确性和真实性：将答案分割成单个待核对内容、对上述内容举行修正、再与google搜刮结果举行比较。随后，该零碎还会检查各个究竟与原始问题的相关性。

为评价其性能，钻研人员创建了包含约 16000 个究竟的数据集 LongFact，并在来自 Claude、Gemini、GPT、PaLM-2 的 13 个大言语模型上测试了该零碎。结果显示，在对 100 个有争议的究竟举行的重点分析中，SAFE 的判定在进一步审查下正确率达到 76% 。与此同时，该框架还具备经济性优势：成本比人工注释便宜 20 多倍。

防止谈天机器人“造谣”，google Deepmind、斯坦福大学钻研人员推出 AI 究竟核对工具

{{userData.name}}已认证

防止谈天机器人“造谣”，google Deepmind、斯坦福大学钻研人员推出 AI 究竟核对工具

Databricks 推出 1320 亿参数大言语模型 DBRX，号称“现阶段最强开源 AI”

三星组建 HBM 产能质量提升团队，加速 AI 推理芯片 Mach-2 开发

微软开源 bitnet.cpp 1-bit LLM 推理框架：不靠 GPU 可本地运行千亿参数 AI 模型，能耗最多降低 82.2%

Meta 用 AI 生成北极光图片，遭网友怒喷

秒变Midjourney高手！精选 52 条高级感的 sref 风格代码

中国电信自研 AI 节能系统：年均节电 8 亿度，节约电费 5.2 亿元

英伟达 CEO 黄仁勋展望公司未来：坐拥 5 万名员工、部署 1 亿个 AI 助手

特斯拉人形机器人 Optimus 现场做饮料，员工证实有人在远程控制

成功率提升15%，浙大、碳硅智慧用LLM进行多属性分子优化，登Nature子刊

研究：AI 医疗建议存巨大安全隐患，22% 的回答可能致死