13 项测试仅通过 4 项，Meta 的 Llama 2 LLM 被指安全性低：幻觉率 48%

作者：故渊 2024-04-18 11:35

AI 安全公司 DeepKeep 近日发布评估报告，在 13 个风险评估类别中，Meta 公司的 Llama 2 大语言模型仅通过 4 项测试。报告称 70 亿参数的 Llama 2 7B 模型幻觉（回答内容存在虚假，或者有误导性内容）最为严重，幻觉率高达 48%。DeepKeep 表示：“结果表明，模型有明显的幻觉倾向，提供正确答案或编造回答的可能性对半开，而幻觉率最高，那么向用户传递的错误信息越多”。除了幻觉问题之外，Llama 2 大语言模型还存在注入和操纵等问题。根据测试结果，80% 的场景下通过“提示注入

AI 安全公司 DeepKeep 近日发布评估报告，在 13 个风险评估类别中，Meta 公司的 Llama 2 大语言模型仅通过 4 项测试。

报告称 70 亿参数的 Llama 2 7B 模型幻觉（回答内容存在虚假，或者有误导性内容）最为严重，幻觉率高达 48%。

13 项测试仅通过 4 项，Meta 的 Llama 2 LLM 被指安全性低：幻觉率 48%

DeepKeep 表示：“结果表明，模型有明显的幻觉倾向，提供正确答案或编造回答的可能性对半开，而幻觉率最高，那么向用户传递的错误信息越多”。

除了幻觉问题之外，Llama 2 大语言模型还存在注入和操纵等问题。根据测试结果，80% 的场景下通过“提示注入”的方式，可以操纵 Llama 的输出，意味着攻击者可以“戏弄”Llama，将用户引导到恶意网站。

IT之家附上参考地址

LlamaV2 7B: hallucination, susceptibility to DoS attacks and PII data leakage

微软正努力治疗 AI 幻觉，以技术手段实时屏蔽和重写毫无根据的信息

就在 GPT-4 因征服标准化测试而登上头条时，微软研究人员正在对其他 AI 模型进行一种非常另类的测试 —— 一种旨在让模型捏造信息的测试。为了治好这种被称为“AI 幻觉”的症状，他们设定了一个会让大多数人头疼的文本检索任务，然后跟踪并改进模型响应，这也是微软在测定、检测和缓解 AI 幻觉方面的一个例子。微软 AI 负责项目的首席产品官 Sarah Bird 表示，“微软希望其所有 AI 系统都是值得信赖且可以有效使用的”。我们可以向这个领域投入许多专家和资源，因此我们认为自己可以帮助阐明“应该如何负责任地使用新

6/21/2024 10:37:35 PM

问舟

Anthropic CEO：AI 模型的 “幻觉” 率低于人类

在最近于旧金山举行的 “与克劳德一起编程” 开发者活动中，Anthropic CEO 达里奥・阿莫迪（Dario Amodei）表示，当前的 AI 模型在 “幻觉” 或制造虚假信息方面，其发生频率低于人类。他的这一观点引起了广泛关注，并且是在他讨论 AI 朝着人类水平智能(AGI)发展的过程中提出的。阿莫迪表示，“这实际上取决于我们如何衡量。

5/23/2025 10:01:00 AM

AI在线

讯飞星火X1升级版即将上线，深度推理能力再攀高峰

近日，科大讯飞通过其官方公众号宣布，备受关注的讯飞星火 X1升级版将于7月25日正式上线。这款深度推理大模型依托全国产算力进行训练，升级后的星火 X1将为用户带来一系列令人期待的功能和性能提升。在综合能力方面，星火 X1升级版表现尤为突出。

7/23/2025 5:32:56 PM

AI在线

13 项测试仅通过 4 项，Meta 的 Llama 2 LLM 被指安全性低：幻觉率 48%

相关资讯

微软正努力治疗 AI 幻觉，以技术手段实时屏蔽和重写毫无根据的信息

Anthropic CEO：AI 模型的 “幻觉” 率低于人类

讯飞星火X1升级版即将上线，深度推理能力再攀高峰