AI在线 AI在线

中国信通院启动 AI 大模型幻觉评测,总体涉及五种测试维度

中国信通院发起大模型幻觉测试,旨在评估AI在生成内容时的准确性与一致性,涉及7000余条中文样本,覆盖多学科维度。此举旨在推动大模型在关键领域的安全应用。 #大模型幻觉评测#

AI在线从中国信通院官方微信公众号获悉,为摸清大模型的幻觉现状,推动大模型应用走深走实,中国信息通信研究院人工智能所基于前期的 AI Safety Benchmark 测评工作,发起大模型幻觉测试。

中国信通院启动 AI 大模型幻觉评测,总体涉及五种测试维度

大模型幻觉(AI Hallucination)是指模型在生成内容或回答问题时,产生了看似合理,实则与用户输入不一致(忠实性幻觉)或者不符合事实(事实性幻觉)的内容。随着大模型在医疗、金融等关键领域广泛应用,大模型幻觉带来的潜在应用风险日益加剧,正得到业界的广泛关注。

本轮幻觉测试工作将以大语言模型为测试对象,涵盖了事实性幻觉和忠实性幻觉两种幻觉类型,具体测评体系如下:

图片

测试数据包含 7000 余条中文测试样本,测试形式包括对应于忠实性幻觉检测的信息抽取与知识推理两类题型,以及对应事实性幻觉检测的事实判别题型。总体涉及人文科学、社会科学、自然科学、应用科学和形式科学五种测试维度。

图片

中国信通院邀请各相关企业参与模型测评,共同推动大模型安全应用。

相关资讯

2024 年 AI 十大故事,透视技术变革与未来挑战

编辑 | 20492024 年,人工智能技术持续改变着我们的生活和工作方式。 IEEE Spectrum 精选了年度最具影响力的 10 个 AI 故事,从技术突破到社会影响,全方位展现了 AI 发展的现状与挑战。 这些故事不仅反映了生成式 AI 的革命性进展,也揭示了其存在的局限与争议。
2/6/2025 2:06:00 PM
ScienceAI

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线

「机器学习之父」Mitchell 撰文:AI 如何加速科学发展,美国如何抓住机遇

编辑 | ScienceAI近日,卡内基梅隆大学(Carnegie Mellon University)教授,有着「机器学习之父」之称的 Tom M. Mitchell 撰写了新的 AI for Science 白皮书,重点讨论了「人工智能如何加速科学发展?美国政府如何帮助实现这一目标?」这一主题。ScienceAI 对白皮书原文进行了不改变原意的全文编译,内容如下。人工智能领域最近取得了显著进展,包括 GPT、Claude 和 Gemini 等大型语言模型,因此提出了这样一种可能性:人工智能的一个非常积极的影响,
7/29/2024 3:21:00 PM
ScienceAI
  • 1