中国信通院启动 AI 大模型幻觉评测，总体涉及五种测试维度

作者：远洋 2025-03-19 04:20

中国信通院发起大模型幻觉测试，旨在评估AI在生成内容时的准确性与一致性，涉及7000余条中文样本，覆盖多学科维度。此举旨在推动大模型在关键领域的安全应用。 #大模型幻觉评测#

AI在线从中国信通院官方微信公众号获悉，为摸清大模型的幻觉现状，推动大模型应用走深走实，中国信息通信研究院人工智能所基于前期的 AI Safety Benchmark 测评工作，发起大模型幻觉测试。

大模型幻觉（AI Hallucination）是指模型在生成内容或回答问题时，产生了看似合理，实则与用户输入不一致（忠实性幻觉）或者不符合事实（事实性幻觉）的内容。随着大模型在医疗、金融等关键领域广泛应用，大模型幻觉带来的潜在应用风险日益加剧，正得到业界的广泛关注。

本轮幻觉测试工作将以大语言模型为测试对象，涵盖了事实性幻觉和忠实性幻觉两种幻觉类型，具体测评体系如下：

测试数据包含 7000 余条中文测试样本，测试形式包括对应于忠实性幻觉检测的信息抽取与知识推理两类题型，以及对应事实性幻觉检测的事实判别题型。总体涉及人文科学、社会科学、自然科学、应用科学和形式科学五种测试维度。

中国信通院邀请各相关企业参与模型测评，共同推动大模型安全应用。

OpenAI开源客户服务代理框架加速企业级AI应用落地

人工智能研究机构OpenAI于6月18日正式开源其客户服务代理框架，标志着该公司在企业级AI解决方案布局上迈出重要一步。该框架通过提供透明工具链和清晰实施案例，旨在推动智能代理系统从实验室走向实际商业应用。技术细节与核心优势.

6/19/2025 2:01:33 PM AI在线

专家揭示构建稳健AI编排层的最佳实践

随着企业加速采用人工智能技术，如何有效管理复杂的AI工作流程成为关键挑战。最新行业分析指出，建立稳健的AI编排层是解决"提示词混乱"问题的有效方案。 AI编排框架的选择困境.

6/19/2025 2:01:28 PM AI在线

江西：促进智能眼镜、智能手表、VR / AR 设备等智能设备消费

AI在线 12 月 24 日消息，江西省人民政府今日印发《江西省“人工智能 ”行动方案》，其中提出，“人工智能 ”生活消费行动方面，加强云侧智能决策、场景引擎和自适应感知等关键技术与购物、文娱、家居等领域深度融合，发展新型智慧电商、智慧娱乐、智慧家居等新业态。促进智能眼镜、智能手表、VR / AR 设备等智能设备消费。据AI在线了解，《方案》还提到，加大具身智能、消费电子等领域传感器研发生产，加快智能穿戴、虚拟现实等领域产品创新，支持企业开展光通信、显示、音视频等模组研发应用。

12/24/2025 4:15:36 PM 清源

中国信通院启动 AI 大模型幻觉评测，总体涉及五种测试维度

相关资讯

OpenAI开源客户服务代理框架 加速企业级AI应用落地

专家揭示构建稳健AI编排层的最佳实践

江西：促进智能眼镜、智能手表、VR / AR 设备等智能设备消费

OpenAI开源客户服务代理框架加速企业级AI应用落地