AI在线 AI在线

离了大谱,21%的ICLR 2026审稿意见竟是AI生成的?官方回应来了

刚过去的这个周末,围绕 ICLR 2026 审稿意见中很多被标记为完全由 AI 生成的说法,引发了社区热烈讨论。 本届会议将于 2026 年 4 月 23 日至 27 日在巴西里约热内卢举行。 随着首轮分数的公布,有第三方机构开始对 ICLR 2026 的审稿意见进行系统性统计,其中发现了大量 AI 审稿的现象。

刚过去的这个周末,围绕 ICLR 2026 审稿意见中很多被标记为完全由 AI 生成的说法,引发了社区热烈讨论。本届会议将于 2026 年 4 月 23 日至 27 日在巴西里约热内卢举行。

随着首轮分数的公布,有第三方机构开始对 ICLR 2026 的审稿意见进行系统性统计,其中发现了大量 AI 审稿的现象。

在对 75800 篇论文的审稿意见统计中,竟然有 21% 完全由 AI 生成、4% 重度由 AI 编辑、9% 中度由 AI 编辑、22% 轻度由 AI 编辑,完全由人类(审稿人)撰写的仅占 43%。

图片

      图源:X@ Graham Neubig

并且还呈现出一些趋势,包括 AI 审稿意见篇幅更长、AI 审稿更可能给出高分。

图片

这项统计是由潘格拉姆实验室(Pangram Labs)完成的,这是一家专门检测 AI 生成(自动撰写或由大语言模型生成文字内容)的科技公司。此次,该机构对 ICLR 2026 投稿人和审稿人使用 AI 的情况进行了详尽的分析。

图片

                图源:X@ Pangram Labs 首席执行官 Max Spero

为了处理每篇论文,Pangram Labs 下载了 PDF,并使用 Mistral-OCR 解析其中的文本内容。这样可以去除预印本中的行号,得到较为干净的文本用于分析。他们针对所有文档运行了 Pangram 的生产模型,其在底层使用滑动窗口算法来估计 AI 使用的程度。

虽然许多文档检测到 AI 使用程度在 0% 到 10% 之间,但这些大多是因为论文中包含了作为研究内容的 LLM 输出示例,而不是在论文主体写作中使用了 AI。因此这一类全部被归为「完全由人类撰写」。

图片

      投稿论文的 AI 使用程度以及平均得分划分。

对于投稿论文,最终发现有 39% 以某种方式使用了 AI 作为写作助手。但有趣的是,论文中的 AI 使用程度与较低的评分呈相关性。其中,199 篇被 Pangram Labs 标记为「90–100%」AI 内容的投稿,它们的平均得分竟然只有 2.9 分。

图片

对于审稿意见,由于评审文本很短,因此无法依赖滑动窗口来区分「AI 辅助」与「AI 生成」。因此,Pangram Labs 使用了 EditLens—— 一个全新模型,旨在量化一段文本中 AI 辅助的程度

图片

      审稿意见中 AI 使用程度的预测、评分以及置信度。

结果发现 21% 的审稿意见被 EditLens 标记为完全由 AI 生成。并且,完全由 AI 生成的评审平均得分高出 0.3 分,长度也比完全由人类撰写的评审长了 26%

图片

完全由 AI 生成的审稿意见示例如下:

图片

对于有人询问的 AI 评审的「置信度」问题,Pangram Labs 发现:完全由 AI 生成的评审比人类或 AI 辅助撰写的评审更倾向于给出置信度为 3 的评价。不过,这个差异幅度较小,因此仍需谨慎解读。

图片

另外,为了验证所用模型的准确性(假阳性率),Pangram Labs 使用 ICLR 2022 的审稿意见运行了 EditLens,结果发现:轻度 AI 编辑的假阳性率为千分之一,中度 AI 编辑的假阳性率为五千分之一,重度 AI 编辑的假阳性率为万分之一,而完全由 AI 生成的未出现任何假阳性

图片

评论区有审稿人现身说法,表示自己评审的一篇论文在收到另外两个低分评审时被打了回去,而这两个评审正好被标记为完全由 AI 生成。

图片

官方回应来了

就在今天早上,ICLR 2026 发布了一则官方回应,表示「我们已经注意到低质量的评审以及由大语言模型生成的评审,目前正在讨论应采取的适当措施。就目前而言,收到质量非常差或由 LLM 生成评审的作者,应将其标注并反馈给所在领域主席(AC)。我们感谢社区在报告这些问题上的努力!」

图片

对于使用 AI 的审稿人,有人给出了处理建议:移除不良评审,并自动使这些不良审稿人被认定为「未履行评审职责」,随后自动拒绝他们提交的论文。

图片

评论区有没有向本届 ICLR 投稿的作者,可以参考 Pangram Labs 的统计结果,查看自己论文的 AI 审稿情况。

统计链接:https://iclr.pangram.com/submissions

相关资讯

拒稿警告,靠大模型「偷摸水论文」被堵死,ICLR最严新规来了

刚刚,又一个人工智能国际顶会为大模型「上了枷锁」。 ICLR 2025 已于今年 4 月落下了帷幕,最终接收了 11565 份投稿,录用率为 32.08%。 就在今天,ICLR 2026 出台了大语言模型(LLM)使用政策,以明确规范论文作者与审稿人在研究过程和审稿过程中使用 LLM 的做法。
8/27/2025 2:52:00 PM
机器之心

ICLR 2026惊现SAM 3,分割一切的下一步:让模型理解「概念」

说出概念,SAM 3 就明白你在说什么,并在所有出现的位置精确描绘出边界。 Meta 的「分割一切」再上新? 9 月 12 日,一篇匿名论文「SAM 3: SEGMENT ANYTHING WITH CONCEPTS」登陆 ICLR 2026,引发网友广泛关注。
10/13/2025 1:11:00 PM
机器之心

老牌Transformer杀手在ICLR悄然更新:Mamba-3三大改进趋近设计完全体

至今为止 Transformer 架构依然是 AI 模型的主流架构,自从其确立了统治地位后,号称 Transformer 杀手的各类改进工作就没有停止过。 在一众挑战者中最具影响力的自然是 2023 年社区爆火的基于结构化的状态空间序列模型(SSM)架构的 Mamba。 Mamba 的爆火可能和名字有关,但硬实力确实强大。
10/14/2025 4:40:00 PM
机器之心