AI在线 AI在线

运用轻量化大语言模型:实现事件响应加速与幻觉抑制双重突破

墨尔本大学和伦敦帝国理工学院的研究人员开发了一种利用大语言模型(LLM)改进事件响应规划的方法,重点在于降低产生幻觉的风险,该方法采用经过微调的小型大语言模型,并结合检索增强生成技术和决策理论规划。 他们所针对的问题十分常见:目前事件响应在很大程度上仍依赖人工操作,速度缓慢,且依赖专家配置的应急预案。 许多企业需要数周甚至数月才能从事件中完全恢复。

运用轻量化大语言模型:实现事件响应加速与幻觉抑制双重突破

墨尔本大学和伦敦帝国理工学院的研究人员开发了一种利用大语言模型(LLM)改进事件响应规划的方法,重点在于降低产生幻觉的风险,该方法采用经过微调的小型大语言模型,并结合检索增强生成技术和决策理论规划。

他们所针对的问题十分常见:目前事件响应在很大程度上仍依赖人工操作,速度缓慢,且依赖专家配置的应急预案。许多企业需要数周甚至数月才能从事件中完全恢复。虽然一些企业已尝试使用前沿大语言模型生成响应措施,但这些模型成本高昂,依赖第三方应用程序接口(API),且容易生成看似合理但实际错误的指令。

论文作者之一Kim Hammar表示,该系统的设计避免了繁重的集成障碍。他解释道:“从技术角度来看,我们的方法经过精心设计,可直接集成到现有工作流程中,无需额外软件或对现有系统进行改造。特别是,我们的方法以原始文本形式接收日志数据和威胁信息作为输入,这些文本无需遵循特定的语法或格式。”

三步走方法

该方法主要通过三个步骤实现:

  • 指令微调:研究团队在一个包含6.8万起历史事件的数据集上,对一个拥有140亿参数的大语言模型进行了微调,每起事件均配有响应计划和推理步骤,这使模型与事件响应的阶段和目标保持一致,而不局限于单一场景。
  • 信息检索:在生成计划之前,系统会根据系统日志中发现的指标,提取相关的威胁情报和漏洞数据,这使其能够适应新出现的威胁,例如在训练截止日期后发现的漏洞,并使模型的输出基于最新信息。
  • 带幻觉过滤的规划:系统不会直接执行第一个建议的操作,而是生成多个候选操作,并利用大语言模型模拟潜在结果,然后,它会选择预计能最快恢复的操作,利用这种前瞻性来过滤掉无法取得进展的响应。

Hammar表示,从用户的角度来看,该方法可以像更具适应性的应急预案一样发挥作用。他指出:“它应该能够集成到依赖响应预案的现有工作流程中。安全操作人员应将建议的操作视为需根据现有证据进行验证的指导,而非绝对真理。”

理论与实际成果

论文提供了概率分析,表明幻觉发生的可能性是可以被限制的,如果规划过程有更多时间和候选操作,该概率可以任意降低,这为该方法比仅依赖提示的前沿大语言模型更可靠的主张提供了形式基础。

在实际应用中,该方法足够轻量,可在普通硬件上运行,无需昂贵的API调用或专用基础设施。作者使用公开的事件数据集,将他们的系统与几种前沿大语言模型和强化学习基准进行了对比评估。在所有测试中,该系统的平均恢复时间更短,比测试中表现最佳的前沿模型快22%,同时还减少了无效操作和恢复失败的情况。

Hammar表示,该系统的本地化、自包含特性还解决了保密性和合规性问题。他说:“我们轻量级方法的一个关键优势是,它可在本地运行,无需依赖外部大语言模型提供商,这种灵活性降低了成本,并避免了将可能敏感的日志数据上传到第三方大语言模型提供商的需求。”

一项消融研究证实,这三个步骤均有助于提升性能,其中微调和规划带来的改进最大,检索增强生成技术也有所帮助,尽管效果较小。

权衡与考量

尽管该方法避免了针对特定事件的重新训练并提高了可靠性,但也存在一定开销。规划步骤增加了推理时间,因为需要生成和评估多个操作。作者指出,这可通过并行处理来缓解。

该方法在需要快速反应且日志数据复杂的情况下尤为有用。Hammar描述了一个这样的用例:“现在是凌晨2点,你的安全信息和事件管理系统(SIEM)检测到了一起潜在事件。你的值班安全操作人员被呼叫,以确定具体问题、找出原因并尽快解决。我们的基于大语言模型的方法无需在仪表板之间跳转,也无需手动追踪跨多个应用和基础设施层的事件,而是帮助解释日志并建议有针对性的响应操作。”

另一方面,他也承认,某些场景下的收益可能较小。他说:“对于不需要立即采取行动的事件,我们的方法可能收益较小。对于需要深入专家分析的高度新颖或复杂的攻击,我们的方法可能仅在响应的早期阶段有所帮助。”

另一个关键点是,该系统并非旨在取代人类判断。Hammar认为,未来几年人类监督仍将至关重要。他说:“未来几年内完全自主的事件响应是不现实的,因为每个人的网络、攻击、安全环境和法规都有所不同。决策支持工具正逐步接管以往手动完成的任务,使操作人员的角色转向指导和验证系统,而非筛选大量日志和安全警报。”

该团队已将其微调后的模型、训练数据、代码和演示视频作为开源资源发布,这有助于进一步开展实验和操作试验。他们认为,未来的工作包括在实际安全运营中心(SOC)工作流程中测试该方法、完善理论上的幻觉限制,以及扩展规划过程以使用更先进的搜索技术。

如果该方法在实际操作中得到验证,将为安全团队提供一种更敏捷、更具成本效益的事件分类和遏制方式,而无需依赖昂贵的前沿大语言模型或僵化的应急预案。

相关资讯

大语言模型(LLM)是如何思考的?讲讲推动下一代人工智能推理的五种途径

译者 | 张哲刚审校 | 重楼大语言模型(LLMs)最早时期只是具备自动完成的功能,迄今为止,进步巨大,与当初已经不可同日而语。 然而,仅仅是生成流畅的文本并不足以体现真正的智能——真正的智能是需要推理能力的。 这意味着,大语言模型需要能够解决数学问题、能够调试代码、能够得出合乎逻辑的结论,还要能够检查和改正自身的错误。
4/8/2025 8:18:38 AM
张哲刚

揭秘 RAG:为什么说它是让大语言模型(LLM)更聪明的秘密武器?

现在人工智能(AI)很火,尤其是像 ChatGPT 这样的大语言模型(LLM),它们能聊天、写文章、写代码,感觉无所不能。 但有时候,它们也会犯一些小错误,比如信息过时了,或者一本正经地胡说八道(这叫“幻觉”),或者你问它一些你们公司内部的事情,它就完全不知道了。 为了解决这些问题,科学家们想出了一个聪明的办法,叫做RAG。
4/25/2025 10:03:12 AM
用户007

如何估算大语言模型LLM 的 GPU 内存:用于本地运行 LLM 的 GPU 内存

随着 DeepSeek、GPT、Llama、Mistral 等大规模 LLM 的兴起,AI 从业者面临的最大挑战之一是确定需要多少 GPU 内存才能高效地服务于这些模型。 GPU 资源昂贵且稀缺,因此优化内存分配至关重要。 本指南将引导您使用一个简单而有效的公式来估算服务 LLM 所需的 GPU 内存。
5/9/2025 1:00:00 AM
晓晓
  • 1