AI在线 AI在线

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

刚刚,OpenAI推出了使用GPT-5寻找和修复安全漏洞的智能体Aardvark。 目前,Aardvark还处于beta测试阶段。 OpenAI称,Aardvark开创了「防御者优先」的新范式:作为自主安全研究智能体,随代码不断演化,为团队提供持续保护(continuous protection)。

刚刚,OpenAI推出了使用GPT-5寻找和修复安全漏洞的智能体Aardvark。

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

目前,Aardvark还处于beta测试阶段。

OpenAI称,Aardvark开创了「防御者优先」的新范式:作为自主安全研究智能体,随代码不断演化,为团队提供持续保护(continuous protection)。

OpenAI表示新智能体实战效果出色:

在标准代码库的基准测试中,Aardvark对已知漏洞与人工植入漏洞的识别率达到92%。

通过早期漏洞捕捉、实战化利用验证及清晰修复方案,在不拖慢创新节奏的前提下,Aardvark能强化安全体系。

OpenAI坚信安全能力应该普惠共享,将在持续完善后逐步扩大服务范围。

有意思的是,Aardvark是夜行性的非洲食蚁熊,一种几乎完全以蚂蚁和白蚁为食的独居生物!

它夜间独自吃蚂蚁和白蚁,就像这个GPT-5智能体独自异步解决bug一样。(bug原义是指「小虫」,但在计算机领域,它特指程序或系统中的错误、缺陷或漏洞。)

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

食蚁熊,(学名:Orycteropus afer),又称土豚、土猪,是管齿目土豚科现存的唯一物种,属土豚属,是活化石动物。

这个名字一语双关,一改OpenAI过去命名风格,让人怀疑:不会是GPT-5命名的吧?

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

Aardvark的工作原理

Aardvark可不间断地分析源代码仓库,识别漏洞、评估可利用性、划分严重等级,并提出针对性修复方案。

工作原理是监控代码库的提交与变更,在识别漏洞的同时分析其潜在利用方式,并自动提供修复建议。

与传统依赖模糊测试或软件成分分析等程序分析技术不同,Aardvark运用大语言模型的推理能力与工具调用功能,从而理解代码行为并定位漏洞。

它如同人类安全研究员般进行漏洞挖掘:通过阅读代码、分析逻辑、编写运行测试、使用工具链等综合手段完成安全检测。

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

Aardvark采用多阶段流程实现漏洞的识别、解析与修复——

分析阶段:首先对完整代码库进行全面分析,生成反映项目安全目标与设计架构的威胁模型。

提交commit扫描:比对提交的代码变更与完整代码库及威胁模型,实时检测新增漏洞。在首次接入仓库时,Aardvark会扫描历史记录以识别现存问题,并以逐步解析方式说明发现的漏洞,为人工审核提供带标注的代码。

验证阶段:发现潜在漏洞后,系统会在隔离的沙箱环境中尝试触发漏洞以确认其可利用性。Aardvark会详细描述验证步骤,确保向用户反馈精准可靠、低误报率的分析结果。

修复阶段:Aardvark与OpenAI Codex协同工作,为每个已识别的漏洞生成经Aardvark扫描验证的修复补丁。这些补丁附在检测报告中供人工审核,支持一键高效修复。

不过,某AI安全测试智能体初创公司首席执行官Daniel Knight有个问题:

既然OpenAI在开发编程智能体Codex,为什么他们写的代码会不安全呢?

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

AI再次解放生产力

AI工程师saen表示这个用例真是完美——

寻找漏洞需要系统性的推理和上下文理解,这恰好是推理模型的强项:AI能思考100多倍的情景,绝对能发现人类遗漏的边缘情况。

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

此外,Aardvark无缝集成GitHub、Codex及现有工作流程,和开发者协作,既能保障开发效率,又能提供清晰可行的安全洞察。

在整个工作流程,中间就有一个人工审核的步骤,之后还有一个。

人类并没有被排除在外,而是被定位为质量把关的角色。

安全工程师可以松一口气:

与大多数人的看法不同,Aardvark实际上要求在修复程序运行之前,必须由人工进行验证。

这是一种生产力放大器,而不是替代品。

所以,安全工程师不用担心Aardvark,而应该担心的是是否能够跟上这些智能体的工作速度。这才是真正的限制。

在两个月前,安全研究人员Efi Weiss也进行了相关研究。

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

他们搭建的系统采用多阶段流水线:

(1) 分析CVE通告与代码补丁;

(2) 生成既包含漏洞的测试应用又包含利用代码;

(3) 通过对比漏洞版与已补丁版进行测试来验证利用代码,剔除误报。

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

将这一流程规模化后,AI可以每天处理130+条CVE信息流,而且比人类研究员更快且更具成本效益。

安全智能体崛起

软件正在吃掉世界,但AI吃掉软件。

大概8年前,黄仁勋如此预测。

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

软件漏洞已成为企业、基础设施乃至社会面临的系统性风险。

仅2024年,公共漏洞和暴露(CVE, Common Vulnerabilities and Exposures)数量就超过4万例, 年增长率高达38%。

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

测试表明,只要提交约1.2%的代码就会引入缺陷——这些微小变更可能引发巨大后果。

而威胁更大、对策更少的「零日漏洞」,其价格已从「豪车」飙升至「豪宅」的水平👇:

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

2015-2022年各类漏洞利用程序平均价格对比分析

由此可见,利用/发现危险软件漏洞远非易事。

而AI作为一种软件,也存在安全问题,比如,AI浏览器普遍面临「提示词注入」攻击,ChatGPT Atlas已「惨遭毒手」:

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

AI时代,信息安全日益重要。

众所周知,软件漏洞历来是开发者最头疼的问题,即便借助传统自动化手段(如模糊测试),发现和修复漏洞依旧费时费力。

随着AI在漏洞发现领域不断取得突破,单靠人类开发者将难以跟上节奏。

为什么安全智能体Aardvark 重要?

  • 普通企业很难雇到足够的安全专家;
  • 每年都有数万漏洞被公开;
  • Aardvark能24小时不停地「巡逻」代码库,提前发现问题;
  • 它不仅找安全漏洞,还能发现逻辑错误或隐私风险并自动修复。

Aardvark已持续运行数月,同时服务于OpenAI内部代码库及外部alpha合作伙伴。

在OpenAI内部,它成功发现了多个具有实际意义的安全漏洞,有效增强了公司的安全防御能力。合作伙伴特别肯定了其分析深度——Aardvark能精准识别仅在某些复杂条件下才会触发的隐蔽问题。

本月初,基于Gemini Deep Think,谷歌DeepMind打造出一个能自主调试并修复复杂漏洞的AI智能体CodeMender。

为了实现这一目标,CodeMender智能体配备了一套强大的工具,使其在修改代码前能够进行深入推理,并在修改后自动进行验证,确保修复是正确的,且不会引入新的问题或导致功能回退。

颤抖吧,Bug!OpenAI放出GPT-5「夜行神兽」,命中92%漏洞

AI,或将彻底改变网络安全竞争格局。

相关资讯

GPT-5遭用户吐槽 “垃圾”:缩放定律失效,AGI梦渐行渐远?

2025 年 8 月,OpenAI 终于推出备受期待的 GPT-5,但其表现并未如市场预期般带来 “革命性突破”,反而让 “AI 进步失速”“缩放定律失效” 的讨论再度升温。 GPT-5 实测:亮点有限,失望声四起YouTube播主 Mrwhosetheboss 的实测显示,GPT-5 并非全面领先:在创建象棋游戏时优于 . GPT-4o-mini-high,撰写视频脚本时强于 GPT-4o,且能根据任务自动匹配最优模型;但在生成 YouTube .
8/18/2025 9:57:30 AM

OpenAI推全新语音转录模型gpt-4o-transcribe,语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后,OpenAI并未停下在该领域探索的脚步,现在这家ChatGPT的创造者再次发力,推出了三款全新的自主研发语音模型,分别为:gpt-4o-transcribe, gpt-4o-mini-transcribe and gpt-4o-mini-tts。 其中最受瞩目的当属gpt-4o-transcribe。 目前,这些新模型已经率先通过应用程序接口(API)向第三方开发者开放,开发者们可以利用它们打造更智能的应用程序。
3/21/2025 9:01:00 AM
AI在线

OpenAI发布GPT-4.1系列模型:能力全面超越前代

4月15日,OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型,涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。 该系列在编程能力、指令理解及长文本处理等方面实现重大突破,全面超越前代 GPT-4o 及 GPT-4o mini。 其中,模型上下文窗口扩展至100万 tokens,知识库更新至2024年6月,为复杂任务提供更强支持。
4/15/2025 9:00:45 AM
AI在线
  • 1