AI在线 AI在线

谷歌 Agent 首次发现真实世界代码漏洞:抢救全球数亿设备,有望挽回数十亿美元损失

AI 首次发现真实世界中的重大安全漏洞? SQLite 中的一个漏洞,幸运地被谷歌研究者的 AI Agent 发现了,修复后并未造成任何损失。 莫非 AI 再进化一番,微软的全球蓝屏事故就可以永久避免了?

AI 首次发现真实世界中的重大安全漏洞?SQLite 中的一个漏洞,幸运地被谷歌研究者的 AI Agent 发现了,修复后并未造成任何损失。莫非 AI 再进化一番,微软的全球蓝屏事故就可以永久避免了?这个可能性令人激动不已。

LLM 居然在真实世界的代码中,发现了一个漏洞?

想象一下,AI 正在默默地守护着我们日常使用的软件。忽然,它发现了一个你我可能从未察觉的安全隐患,并且悄无声息地把它修复了!

就在刚刚,谷歌的 Big Sleep 项目揭示了一个惊人的成果:一个真实世界的安全漏洞,出现在全球广泛使用的 SQLite 数据库中,而这个漏洞竟然被 AI 成功识别出来了?在真实世界的危机扩散之前,它及时挽回了局面。

谷歌 Agent 首次发现真实世界代码漏洞:抢救全球数亿设备,有望挽回数十亿美元损失

谷歌 Agent 首次发现真实世界代码漏洞:抢救全球数亿设备,有望挽回数十亿美元损失

隶属于谷歌 Project Zero 和 Google DeepMind 的团队声称,这是 AI Agent 在广泛使用的现实软件中,发现未知可利用内存安全问题的第一个公开示例。

谷歌 Agent 首次发现真实世界代码漏洞:抢救全球数亿设备,有望挽回数十亿美元损失

要知道,这不仅仅是一个崩溃的测试用例,它是 AI 首次在真实世界的软件中找到未知的、可利用的内存漏洞。

此前,网络安全巨头 CrowdStrike 闹出的一个由「C-00000291*.sys」配置文件触发的系统逻辑错误,瞬间就破坏掉全世界约 10 亿台计算机,直接导致微软蓝屏、全球停摆。

如果未来某一天,AI 能帮我们解决所有技术领域的单点瞬时故障,不知会帮人类节省下多少财富?

谷歌 Agent 首次发现真实世界代码漏洞:抢救全球数亿设备,有望挽回数十亿美元损失

用 LLM 在真实世界中「捉虫」

随着 LLM 代码理解和一般推理能力的提高,谷歌研究者一直在探索这些模型如何在识别和演示安全漏洞时,重新人类安全研究人员的方法。

在《Project Naptime:评估大型语言模型的攻防能力》中,Big Sleep 团队介绍了一个利用 LLM 辅助的漏洞研究框架,并通过在 Meta 的 CyberSecEval2 基准测试上提升了最新的性能,展示了这种方法的潜力。

谷歌 Agent 首次发现真实世界代码漏洞:抢救全球数亿设备,有望挽回数十亿美元损失

从那时起,Naptime 就变成「Big Sleep」,成为了 Google Project Zero 与 Google DeepMind 的合作项目。

就在刚刚,谷歌研究者激动地表示,Big Sleep Agent 发现了首个真实世界漏洞:一个存在于 SQLite 中的可利用栈缓冲区下溢漏洞。

SQLite 是一款被广泛使用的开源数据库引擎。

在十月初,Agent 发现了了这个漏洞,于是谷歌研究者立刻将其报告给了开发者,他们在同一天进行了修复。

幸运的是,AI 在这个问题出现在官方发布版本之前,就发现了它,因此 SQLite 的用户未受影响。

要知道,SQLite 作为轻量级嵌入式数据库,广泛应用于智能手机、浏览器、嵌入式系统、IoT 设备等多种环境,涵盖了许多用户和敏感信息。

如果攻击者利用该漏洞进行数据泄露、系统入侵或破坏,潜在损失金额可能少则几百万,多则数十亿美元!

谷歌 Agent 首次发现真实世界代码漏洞:抢救全球数亿设备,有望挽回数十亿美元损失

谷歌研究者表示,这是 AI Agent 首次在广泛使用的真实世界软件中发现未知的、可利用的内存安全问题的公开案例。

之所以会有这次尝试,是因为今年早些时候,在 DARPA 的 AIxCC 活动中,亚特兰大团队在 SQLite 中发现了一个空指针取消引用的漏洞,这就给了谷歌研究者启发 ——

是否可以使用 SQLite 进行测试,看看能否找到更严重的漏洞呢?

果然,AI Agent 真的找出了一个漏洞。

这项工作,无疑具有巨大的潜力。

谷歌 Agent 首次发现真实世界代码漏洞:抢救全球数亿设备,有望挽回数十亿美元损失

在软件尚未发布前就发现漏洞,就意味着攻击者没有机会利用:漏洞在他们有机会使用之前,就已被修复。

虽然模糊测试也能带来显著的帮助,但我们更需要的是一种方法,帮助防御者找到那些很难通过模糊测试发现的漏洞。

现在,AI 有望缩小这一差距!

谷歌研究者表示,这是一条有希望的道路,能为防御者带来不对称的优势。

谷歌 Agent 首次发现真实世界代码漏洞:抢救全球数亿设备,有望挽回数十亿美元损失

因为这个漏洞相当有趣,而且 SQLite 的现有测试基础设施(包括 OSS-Fuzz 和项目自身的测试)并没有发现它,因此谷歌研究者进行了深入调查。

方法架构

Naptime 和 Big Sleep 项目的关键驱动因素,就是已经发现并修补的漏洞变种,仍在现实中不断被发现。

显而易见,fuzzing(模糊测试)并不能成功捕获此类变种漏洞,而对攻击者而言,手动变种分析的方法仍然性价比很高。

谷歌研究者认为,相比更为宽泛的开放式漏洞研究问题,这种变种分析任务更适合当前的 LLM。

通过提供一个具体的起点 —— 比如此前修复的漏洞的详细信息 —— 我们就可以降低漏洞研究中的不确定性,并且还能从一个明确的、有理论支撑的假设出发:「这里曾经存在一个漏洞,很可能在某处还存在类似的问题」。

目前,他们的项目仍处于研究阶段,正在使用带有已知漏洞的小型程序来评估研究进展。

最近,他们决定通过在 SQLite 上开展首次大规模的真实环境变种分析实验,来测试他们的模型和工具链。

他们收集了 SQLite repository 近期的一系列提交,手动筛除了无关紧要的改动和纯文档更新。

随后,他们调整了 prompt,为 AI Agent 同时提供了提交信息和代码变更,并要求它审查当前代码库(在 HEAD 位置)中可能仍未修复的相关问题。

Project Naptime

Naptime 采用了一种专门的架构来增强大语言模型进行漏洞研究的能力,其核心是 AI Agent 与目标代码库之间的交互。

谷歌 Agent 首次发现真实世界代码漏洞:抢救全球数亿设备,有望挽回数十亿美元损失

系统架构

为了让 AI Agent 可以模仿人类安全研究员的工作流程,研究团队开发了一系列专用的工具:

  • 代码浏览工具(Code Browser)使 AI Agent 能够浏览目标代码库,这与工程师使用 Chromium Code Search 的方式类似。它提供了查看特定实体(如函数、变量等)源代码的功能,并能识别函数或实体被引用的位置。

  • Python 工具让 AI Agent 能够在隔离的沙盒(Sandbox)环境中运行 Python 脚本,用于执行中间计算并生成精确而复杂的目标程序输入。

  • 调试器工具(Debugger)为 AI Agent 提供了程序交互能力,可以观察程序在不同输入下的行为表现。它支持断点设置并能在断点处评估表达式,从而实现动态分析。

  • 报告工具(Reporter)为 AI Agent 提供了一个结构化的进度通报机制。AI Agent 可以发送任务完成信号,触发控制器验证是否达成成功条件(通常表现为程序崩溃)。当无法取得进一步进展时,它还允许 AI Agent 主动中止任务,避免陷入停滞状态。

发现漏洞

这个漏洞非常有趣,比如在一个通常为索引类型的字段 iColumn 中,使用了一个特殊的哨兵值-1:

7476   struct sqlite3_index_constraint {
7477      int iColumn              /* Column constrained.  -1 for ROWID */
7478      unsigned char op         /* Constraint operator */
7479      unsigned char usable     /* True if this constraint is usable */
7480      int iTermOffset          /* Used internally - xBestIndex should ignore */
7481   } *aConstraint            /* Table of WHERE clause constraints */

这种模式产生了一个边缘案例,所有使用该字段的代码都需要正确处理这种情况,因为按照常规预期,有效的列索引值应该是非负的。

seriesBestIndex 函数在处理这个 edge case 时存在缺陷,当处理包含 rowid 列约束的查询时,导致写入了带有负索引的堆栈缓冲区。

在研究者提供给 AI Agent 的编译版本中,debug assertion 功能已启用,这种异常情况会被第 706 行的断言检查所捕获:

619 static int seriesBestIndex(
620 sqlite3_vtab *pVTab,
621 sqlite3_index_info *pIdxInfo
622 ){
...
630 int aIdx[7]; /* Constraints on start, stop, step, LIMIT, OFFSET,
631 ** and value. aIdx[5] covers value=, value>=, and
632 ** value>, aIdx[6] covers value<= and value< */
633 const struct sqlite3_index_constraint *pConstraint;
...
642 for(i=0; i<pIdxInfo->nConstraint; i++, pConstraint++){
643 int iCol; /* 0 for start, 1 for stop, 2 for step */
644 int iMask; /* bitmask for those column */
645 int op = pConstraint->op;
...
705 iCol = pConstraint->iColumn - SERIES_COLUMN_START;
706 assert( iCol>=0 && iCol<=2 );
707 iMask = 1 << iCol;
...
713 if( pConstraint->usable==0 ){
714 unusableMask |= iMask;
715 continue;
716 }else if( op==SQLITE_INDEX_CONSTRAINT_EQ ){
717 idxNum |= iMask;
718 aIdx[iCol] = i;
719 }
720 }

然而,在发布版本中,这个断言检查并不存在。

在研究者的测试环境中(具体表现会因编译器和优化级别而异),第 718 行的后续写入操作会越界写入 aIdx 缓冲区下方的内存区域,导致 pConstraint 指针的最低有效 32 位被破坏。

当这个被破坏的指针在循环的下一次迭代中被取消引用时,就会产生潜在的可利用漏洞条件。

不过,即使有了这样的漏洞说明,对于人类研究员来说,要精确理解如何触发这个漏洞仍然不易。

虽然针对 ROWID 列设置约束显然是个不错的切入点,但要完全理解,还需要深入研读代码。

而 AI 智能体似乎已经掌握了比人类研究员更多的 SQLite 相关知识,这使它能够更高效地定位问题!

这种情况的一个典型例子,就是 LLM 在生成测试用例时会直接使用 generate_series 虚拟表。

(虽然研究者也观察到模型会先研究可用的虚拟表的情况,但很明显,它能够在这里直接运用已有的知识)。

执行过程重点分析

在这次基于 Gemini 1.5 Pro 的成功测试中,seed commit 为 [1976c3f7],这是一个规模较大、复杂的代码变更。

而研究者的 AI Agent 发现的漏洞,与该 seed commit 中的变更仅存在松散关联 —— 这种情况在手动变种分析中较为常见,因为在理解代码库中的某个漏洞时,研究人员往往会由此发现其他潜在问题。

以下是关键节点摘要,其中,所有 ASSISTANT 块中的内容均直接来自 AI Agent。

AI Agent 对差异中的变化进行了合理的评估,并以此作为研究的切入点:

ASSISTANT

通过引入 termFromWhereClause 函数,CL 改进了在虚拟表查询中处理 OR 分支共享的 WHERE 条件的方式。该函数在考虑嵌套子句的情况下,从 WhereClause 中检索特定的条件。

在此更改之前,由于条件索引映射不正确,共享的条件可能未被正确处理,可能导致低效的查询计划或错误的结果。

最可能出现的问题涉及在 allocateIndexInfo 和 whereLoopAddVirtualOne 函数中不正确地处理 WHERE 子句约束,其中 CL 修改了如何使用新的辅助函数来处理约束偏移量。

我将首先检查 allocateIndexInfo 函数。

在经过数个步骤探索相关代码后,AI Agent 形成了一个更明确的测试假设 —— 它试图通过运行 patch 中测试用例的修改版本来验证这个假设,但未能成功。

原因在于 patch 中的测试用例依赖于一个在当前配置环境中未启用的扩展模块:

TOOL(debugger_run )

程序在未崩溃或命中断点的情况下退出。退出代码为 1。

STDERR 输出为:

Runtime error near line 2: no such module: tcl

Parse error near line 3: no such table: x1

ASSISTANT  

程序终止是因为 TCL 模块不可用。测试依赖于 TCL 虚拟表模块,需要在编译 SQLite 时启用该模块。提供的程序的输入基于 bestindexC.test 文件,它使用 TCL 模块来测试虚拟表的最佳索引选择。

为了解决这个问题,需要更改程序输入,使用不需要 TCL 模块的其他虚拟表。然而,该漏洞与虚拟表的查询计划有关,所以我们仍然需要一个虚拟表来触发此问题。

我将使用 code_browser_source 工具来检索 SQLite 中的内置虚拟表示例。然后,我将调整输入,使用其中一个虚拟表,并重新在 whereLoopAddVirtualOne 中设置断点。

AI Agent 很好地应对了这个问题,准确识别出了修复测试用例所需的各个步骤,并在后续几个步骤中成功收集到了所有构建测试用例所需的信息,最终实现了触达 whereLoopAddVirtualOne 的目标:

ASSISTANT

sqlite3_create_module 函数用于注册虚拟表模块。shell.c 文件包含了多个这样的实例,包括 generate_series、fsdir、completion 和 expert 模块。其中 json 表的实现也很值得关注。

我首先关注的是 generate_series,然后构造出一个使用该模块的查询,从而触发错误的约束处理。

需要注意的是,在最初发现和复现该漏洞时,AI Agent 对于它试图触发的「不正确约束处理」的描述相当模糊。

在这种情况下,完整的执行轨迹读起来颇似人类研究员的思维过程 —— 从一个想法开始,在调查过程中产生其他几个想法,最终生成了一个可以复现略有不同漏洞的测试用例。

在本例中,当 whereLoopAddVirtualOne 在 generate_series 表上被调用时,执行流程最终会进入 seriesBestIndex,在那里约束确实被错误处理了。

特别有趣的是,一旦程序崩溃,模型会在解释问题时表现得更为出色 —— 在生成根因分析(root-cause analysis)和完整崩溃报告时,我们可以看到 AI Agent 清晰地构造了一个测试用例来触发特定的已识别边缘案例:

ASSISTANT

相关的字段是 sqlite3_index_constraint 结构体中的 iColumn。该字段表示约束的列编号。要导致断言失败,我们需要对索引大于 3 或小于-1 的列设置约束。

让我们构建一个涉及这些列约束的 SQL 查询。generate_series 表有名为 value、start、step 和 stop 的列。它们的索引是:

- value: 0

- start: 1

- step: 2

- stop:3

要触发此漏洞,我们可以对 ROWID 施加一个约束,并对 ROWID 的约束使用 iColumn = -1。

示例查询如下:

SELECT * FROM generate_series(1,10,1) WHERE ROWID = 1;

该查询将导致 seriesBestIndex 函数崩溃。

最终,得到了一个清晰准确的问题总结,几乎可以直接用于漏洞报告!

TOOL(debugger_run)

程序崩溃:SIGABRT at :0

STDERR 输出为:

sqlite3: src/shell.c:6816: int seriesBestIndex(sqlite3_vtab *, sqlite3_index_info *): Assertion `iCol>=0 &&  iCol<=2' failed.

ASSISTANT(report_success)

程序在执行 SELECT * FROM generate_series (1,10,1) WHERE ROWID = 1; 时因 seriesBestIndex 函数中的断言失败而崩溃。

断言 assert (iCol>=0 && iCol<=2) 失败的原因是 sqlite3_index_info 结构体中的 iColumn 字段可能包含超出列索引有效范围的值,例如在约束涉及 ROWID 时为-1。

这导致 iCol 被计算为-2,从而导致断言失败。

关于模糊测试

一个显而易见的问题是:为什么传统的模糊测试没有更早发现这个漏洞?

答案就在模糊测试工具链的配置上。

OSS-Fuzz 使用的工具并没有启用 generate_series 扩展,而替代的 fuzzingshell.c 工具包含的是旧版本的 seriesBestIndex 函数,未受此漏洞影响。

虽然 SQLite AFL 仓库中包含一个针对研究者提供给 Big Sleep 智能体的、相同 CLI 二进制文件的模糊测试配置,但似乎并未被广泛使用。

这个漏洞是否真的容易发现?

为此,研究者尝试通过模糊测试重新发现它。

他们遵循 SQLite 文档中的模糊测试说明,并使用 CLI 目标。在启动 AFL 运行之前,他们还验证了模糊测试语料库中包含所需的 generate_series 和 rowid 关键字。

然而,经过 150 个 CPU 小时的模糊测试,问题仍未被发现。

随后,他们尝试通过将必要的关键字添加到 AFL 的 SQL 字典中,来简化模糊测试的任务。

然而,似乎只有当语料库包含与导致崩溃的输入非常接近的示例时,漏洞才能被快速发现,因为代码覆盖率对这个特定问题并不是可靠的指标。

诚然,AFL 并不是针对像 SQL 这种基于文本的格式最适合的工具,大多数输入在语法上无效,会被解析器拒绝。

然而,如果将这一结果与 Michal Zalewski 在 2015 年关于模糊测试 SQLite 的博客文章进行比较,会发现十分有趣的事。

那时,AFL 在发现 SQLite 漏洞方面相当有效;经过多年的模糊测试,该工具似乎已经达到自然的饱和点。

虽然研究者迄今为止的结果与 AFL 发布时带来的显著效果相比显得微不足道,但它有自己的优势 —— 有概率能够有效地发现一组不同的漏洞。

结论

对于团队来说,这个项目无疑成功了。

在广泛使用且模糊化的开源项目中找到漏洞,非常一个令人兴奋!

这也就意味着:当提供正确的工具时,当前的 LLMs 可以进行漏洞研究。

不过,研究者想重申,这些都是高度实验性的结果。

Big Sleep 团队表示:目前,在发现漏洞方面,针对特定目标的模糊器可能至少同样有效。

研究者希望,未来这项工作将为防御者带来显著优势 ——

不仅有可能找到导致崩溃的测试用例,还能提供高质量的根本原因分析,使得问题的分类和修复变得更便宜且更有效。

谷歌研究者表示,会继续分享自己的研究成果,尽可能缩小公共技术前沿和私有技术前沿之间的差距。

Big Sleep 团队也会将继续努力,推进零日计划的使命,让 0-day 变得更加困难。

团队介绍

谷歌 Agent 首次发现真实世界代码漏洞:抢救全球数亿设备,有望挽回数十亿美元损失

Dan Zheng

谷歌 Agent 首次发现真实世界代码漏洞:抢救全球数亿设备,有望挽回数十亿美元损失

团队中唯一的华人 Dan Zheng 是谷歌 DeepMind 的研究工程师,从事代码和软件工程的机器学习,以及编程语言的研究。

此前,他曾参与 Swift for TensorFlow 的工作,专注于 Swift 中的可微分编程。

谷歌 Agent 首次发现真实世界代码漏洞:抢救全球数亿设备,有望挽回数十亿美元损失

他在普渡大学获得了计算机科学专业的学士学位。毕业后,他做了多年的学生研究员,期间研究成果颇丰。

谷歌 Agent 首次发现真实世界代码漏洞:抢救全球数亿设备,有望挽回数十亿美元损失

谷歌 Agent 首次发现真实世界代码漏洞:抢救全球数亿设备,有望挽回数十亿美元损失

谷歌 Agent 首次发现真实世界代码漏洞:抢救全球数亿设备,有望挽回数十亿美元损失

参考资料:

  • https://googleprojectzero.blogspot.com/2024/10/from-naptime-to-big-sleep.html

本文来自微信公众号:微信公众号(ID:null),作者:新智元

相关资讯

「导师要我的论文和别人共同一作」,Nature揭露论文署名乱象:没贡献为啥要署名?

在科研界,论文署名以及顺序一直是研究人员非常重视的问题。由于各种原因,署名排序过程中难免会出现分歧与争议。近日,《Nature》 对论文署名问题进行了调查,指出了一些不好的现象,并希望能够创建一个公平的论文个人贡献评价系统。
6/15/2021 2:54:00 PM
机器之心

开启生成式视频压缩:谷歌基于GAN来实现,性能与HEVC相当

来自谷歌的研究者提出了一种基于生成对抗网络 (GAN) 的神经视频压缩方法,该方法优于以前的神经视频压缩方法,并且在用户研究中与 HEVC 性能相当。
8/11/2021 5:12:00 PM
机器之心

归一化提高预训练、缓解梯度不匹配,Facebook的模型超越GPT-3

来自 Facebook AI 的研究者提出了 NormFormer,该模型能够更快地达到目标预训练的困惑度,更好地实现预训练困惑度和下游任务性能。
10/27/2021 4:53:00 PM
机器之心

用消息传递求解偏微分方程,ML大牛Max Welling等用全神经求解器做到了更强、更快

对于求解偏微分方程来说,阿姆斯特丹大学、高通 AI 研究院的研究者最近推出的 MP-PDE 求解器又提供了一个选择。
2/20/2022 2:48:00 PM
机器之心

对比学习引领弱标签学习新SOTA,浙大新研究入选ICLR Oral

本文介绍浙江大学、威斯康星大学麦迪逊分校等机构的最新工作 PiCO,相关论文已被 ICLR 2022 录用(Oral, Top 1.59%)!偏标签学习 (Partial Label Learning, PLL) 是一个经典的弱监督学习问题,它允许每个训练样本关联一个候选的标签集合,适用于许多具有标签不确定性的的现实世界数据标注场景。然而,现存的 PLL 算法与完全监督下的方法依然存在较大差距。为此,本文提出一个协同的框架解决 PLL 中的两个关键研究挑战 —— 表征学习和标签消歧。具体地,研究者提出的 PiCO
2/17/2022 2:28:00 PM
机器之心

模块化的机器学习系统就够了吗?Bengio师生告诉你答案

Bengio 等研究者刚「出炉」的预印本论文,探讨了机器学习系统的一个重要方向问题。
6/9/2022 8:25:00 AM
机器之心

斯坦福最新研究警告:别太迷信大模型涌现能力,那是度量选择的结果

大模型出现后,涌现这一术语开始流行起来,通常表述为在小规模模型中不存在,但在大规模模型中存在的能力。但斯坦福大学的研究者对 LLM 拥有涌现能力的说法提出了质疑,他们认为是人为选择度量方式的结果。
5/3/2023 5:34:00 PM
机器之心

Meta用《圣经》训练超多语言模型:识别1107种、辨认4017种语言

在《圣经》中有一个巴别塔的故事,说是人类联合起来计划兴建一座高塔,希望能通往天堂,但神扰乱了人类的语言,计划也就因此失败。到了今天,AI 技术有望拆除人类语言之间的藩篱,帮助人类造出文明的巴别塔。
5/23/2023 3:05:00 PM
机器之心

论文插图也能自动生成了,用到了扩散模型,还被ICLR接收

如果论文中的图表不用绘制,对于研究者来说是不是一种便利呢?有人在这方面进行了探索,利用文本描述生成论文图表,结果还挺有模有样的呢!
6/26/2023 2:11:00 PM
机器之心

大模型写代码能力突飞猛进,北大团队提出结构化思维链SCoT

任何简单或复杂的算法都可以由顺序结构、选择结构和循环结构这三种基本结构组合而成。
9/9/2023 6:47:00 PM
机器之心

AI助力脑机接口研究,纽约大学突破性神经语音解码技术,登Nature子刊

作者 | 陈旭鹏 编辑 | ScienceAI由于神经系统的缺陷导致的失语会导致严重的生活障碍,它可能会限制人们的职业和社交生活。近年来,深度学习和脑机接口(BCI)技术的飞速发展为开发能够帮助失语者沟通的神经语音假肢提供了可行性。然而,神经信号的语音解码面临挑战。近日,纽约大学 VideoLab 和 Flinker Lab 的研究者开发了一个新型的可微分语音合成器,可以利用一个轻型的卷积神经网络将语音编码为一系列可解释的语音参数(如音高,响度,共振峰频率等)并通过可微分语音合成器重新合成语音。通过将神经信号映射到
4/16/2024 6:14:00 PM
ScienceAI

人大刘勇团队「慢思考」机理分析:从雪球误差到正确推理概率

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。
2/10/2025 1:15:00 PM
机器之心

大语言模型的自信危机:为何GPT-4o轻易放弃正确答案?

最近,Google DeepMind 与伦敦大学的研究揭示了大语言模型(LLMs)在面对反对意见时的 “软弱” 表现。 比如,像 GPT-4o 这样的先进模型,有时会显得非常自信,但一旦遇到质疑,它们就可能立即放弃正确答案。 这种现象引发了研究人员的关注,他们探索了这种行为背后的原因。
7/21/2025 10:32:35 AM
AI在线

谷歌内部项目:大模型 AI 智能体发现了代码漏洞

开源数据库引擎 SQLite 有 bug,还是智能体检测出来的! 通常,软件开发团队会在软件发布之前发现软件中的漏洞,让攻击者没有破坏的余地。 模糊测试 (Fuzzing)是一种常见的软件测试方法,其核心思想是将自动或半自动生成的随机数据输入到一个程序中,并监视程序异常。
11/4/2024 3:54:16 PM
机器之心

谷歌Gemini咒骂学生凸显AI失控风险

随着AI技术的迅猛发展,大语言模型应用(例如谷歌的Gemini和OpenAI的ChatGPT)已逐渐融入日常生活,帮助人们完成作业、解答各种问题。 然而,最近的一起事件再次引发了对AI模型潜在风险的广泛关注。 Gemini咒骂学生去死近日,一位Reddit学生用户分享了一段与Google聊天机器人Gemini的对话,令人不寒而栗。
11/15/2024 1:09:41 PM
佚名

AI 生成的代码真的安全吗?

译者 | 陈峻审校 | 重楼软件开发与编程曾经被认为是只有具备深厚专业知识与技能的程序员才能胜任的工作。 不过,现在貌似任何人都可以利用自然语言工具来实现并完成了。 与此同时,过去那些需要数天、甚至数月才能开发出来的功能,现在完全可以在 AI 模型的代码加持下、在几分钟之内被开发出来。
3/28/2025 8:00:00 AM
陈峻

最新 AI 叛变!除了祈祷,程序员还能做什么?

作者 | 腾讯AI编程安全-啄木鸟团队我们是专注AI编程安全的啄木鸟团队,近日GitHub Copilot 和 Cursor 中出现可让AI“叛变”的新漏洞,从手法复现、风险、建议三个角度为你讲解“AI助手叛变”之事始末。 一、你的AI助手已被“策反”你可能还没察觉到,AI已经开始“叛变”程序员了。 这不是危言耸听,安全厂商 Pillar Security 在一份报告中指出了AI“背叛”程序员的证据。
3/31/2025 9:00:00 AM
腾讯技术工程

Meta修复安全漏洞,用户AI提示及生成内容不再泄露

近日,Meta 公司宣布修复了一项影响其 AI 聊天机器人的严重安全漏洞,该漏洞曾允许用户访问其他用户的私人提示和 AI 生成的内容。 此漏洞的发现者,安全测试公司 AppSecure 的创始人 Sandeep Hodkasia,因其在2024年12月26日私下披露该漏洞,获得了 Meta 支付的1万美元奖励。 Hodkasia 在接受 TechCrunch 采访时表示,他是在对 Meta AI 的功能进行深入研究时发现了这个漏洞。
7/16/2025 9:11:33 AM
AI在线
  • 1