Meta 开源 LlamaFirewall 防护工具，助力构建安全 AI 智能体

作者：故渊 2025-05-09 02:00

Meta AI 公司最新推出 LlamaFirewall，应对 AI 智能体不断演变的威胁格局，为生产环境中的 AI 智能体提供系统级安全保护。

Meta AI 公司最新推出 LlamaFirewall，应对 AI 智能体不断演变的威胁格局，为生产环境中的 AI 智能体提供系统级安全保护。

随着大型语言模型（LLMs）嵌入 AI 智能体并被广泛应用于高权限场景，安全隐患随之增加。这些智能体可以读取邮件、生成代码、调用 API，一旦被恶意利用，后果不堪设想。

传统的安全机制，如聊天机器人内容审核或硬编码模型限制，已无法满足具备广泛能力的 AI 智能体需求。Meta AI 针对提示注入攻击、智能体行为与用户目标不一致、以及不安全的代码生成三大核心挑战，开发了 LlamaFirewall。

AI在线援引博文介绍，LlamaFirewall 采用分层框架，包含三个专门的防护模块：

PromptGuard 2 是一个基于 BERT 架构的分类器，能实时检测越狱行为和提示注入，支持多语言输入，其 86M 参数模型性能强劲，22M 轻量版本则适合低延迟部署。
AlignmentCheck 是一种实验性审计工具，通过分析智能体内部推理轨迹，确保行为与用户目标一致，特别擅长检测间接提示注入。
CodeShield 则是一个静态分析引擎，检查 LLM 生成代码中的不安全模式，支持多种编程语言，能在代码提交或执行前捕获 SQL 注入等常见漏洞。

Meta 在 AgentDojo 基准测试中评估了 LlamaFirewall，模拟了 97 个任务领域的提示注入攻击。

结果显示，PromptGuard 2（86M）将攻击成功率（ASR）从 17.6% 降至 7.5%，任务实用性损失极小；AlignmentCheck 进一步将 ASR 降至 2.9%；整体系统将 ASR 降低 90% 至 1.75%，实用性略降至 42.7%。CodeShield 在不安全代码数据集上也表现出色，精准度达 96%，召回率（recall） 79%，响应时间适合生产环境实时使用。

Meta 开源 LlamaFirewall 防护工具，助力构建安全 AI 智能体

Meta Ray-Ban 智能眼镜隐私政策调整：AI 随时“看”，语音云端存

Meta更新Ray-Ban智能眼镜隐私政策，AI摄像头功能默认开启，语音录音强制云端存储一年。用户需手动关闭“Hey Meta”功能以禁用AI分析，物理按键仍可作普通相机使用。#智能眼镜隐私# #MetaAI升级#

4/30/2025 11:24:30 PM 远洋

掌控 AI 智能体自主性：五级框架下的人机协作之道

大家好，我是肆〇柒，在AI飞速发展的时代，AI 智能体自主性已成为一个备受瞩目的焦点。一方面，它能够为我们带来前所未有的创新应用，极大提升工作效率和生活便利性；另一方面，若不当使用，也可能引发一系列难以预料的风险。随着大型语言模型（LLM）等前沿 AI 技术的飞速进步，AI 智能体的自主性不再是停留在科幻小说中的情节，它已逐渐走进现实，引起了大家的广泛关注和深入探讨。

7/29/2025 9:24:21 AM 肆零柒

Meta AI 全球市场扩张，并上线网页版 meta.ai

Meta 公司近日宣布 Llama 3 大语言模型之外，扩展 Meta AI 服务到美国之外的 13 个国家和地区，还宣布上线专门的聊天网站：meta.ai。Meta 公司在新闻稿中表示开始在全球市场扩展 Meta AI，在澳大利亚、加拿大、南非和新加坡等国家和地区推出英语版本。IT之家附上 Meta AI 扩展的国家和地区如下澳大利亚加拿大加纳牙买加马拉维新西兰尼日利亚巴基斯坦新加坡南非乌干达赞比亚津巴布韦Meta AI 整合了 Llama 3 大语言模型，速度更快、智能性更高、功能更强，是执行各种任务的理想选择

4/19/2024 9:15:51 AM 故渊

Meta 开源 LlamaFirewall 防护工具，助力构建安全 AI 智能体

相关资讯

Meta Ray-Ban 智能眼镜隐私政策调整：AI 随时“看”，语音云端存

掌控 AI 智能体自主性：五级框架下的人机协作之道

Meta AI 全球市场扩张，并上线网页版 meta.ai