离了大谱，21%的ICLR 2026审稿意见竟是AI生成的？官方回应来了

刚过去的这个周末，围绕 ICLR 2026 审稿意见中很多被标记为完全由 AI 生成的说法，引发了社区热烈讨论。本届会议将于 2026 年 4 月 23 日至 27 日在巴西里约热内卢举行。随着首轮分数的公布，有第三方机构开始对 ICLR 2026 的审稿意见进行系统性统计，其中发现了大量 AI 审稿的现象。

刚过去的这个周末，围绕 ICLR 2026 审稿意见中很多被标记为完全由 AI 生成的说法，引发了社区热烈讨论。本届会议将于 2026 年 4 月 23 日至 27 日在巴西里约热内卢举行。

随着首轮分数的公布，有第三方机构开始对 ICLR 2026 的审稿意见进行系统性统计，其中发现了大量 AI 审稿的现象。

在对 75800 篇论文的审稿意见统计中，竟然有 21% 完全由 AI 生成、4% 重度由 AI 编辑、9% 中度由 AI 编辑、22% 轻度由 AI 编辑，完全由人类（审稿人）撰写的仅占 43%。

图源：X@ Graham Neubig

并且还呈现出一些趋势，包括 AI 审稿意见篇幅更长、AI 审稿更可能给出高分。

这项统计是由潘格拉姆实验室（Pangram Labs）完成的，这是一家专门检测 AI 生成（自动撰写或由大语言模型生成文字内容）的科技公司。此次，该机构对 ICLR 2026 投稿人和审稿人使用 AI 的情况进行了详尽的分析。

图源：X@ Pangram Labs 首席执行官 Max Spero

为了处理每篇论文，Pangram Labs 下载了 PDF，并使用 Mistral-OCR 解析其中的文本内容。这样可以去除预印本中的行号，得到较为干净的文本用于分析。他们针对所有文档运行了 Pangram 的生产模型，其在底层使用滑动窗口算法来估计 AI 使用的程度。

虽然许多文档检测到 AI 使用程度在 0% 到 10% 之间，但这些大多是因为论文中包含了作为研究内容的 LLM 输出示例，而不是在论文主体写作中使用了 AI。因此这一类全部被归为「完全由人类撰写」。

投稿论文的 AI 使用程度以及平均得分划分。

对于投稿论文，最终发现有 39% 以某种方式使用了 AI 作为写作助手。但有趣的是，论文中的 AI 使用程度与较低的评分呈相关性。其中，199 篇被 Pangram Labs 标记为「90–100%」AI 内容的投稿，它们的平均得分竟然只有 2.9 分。

对于审稿意见，由于评审文本很短，因此无法依赖滑动窗口来区分「AI 辅助」与「AI 生成」。因此，Pangram Labs 使用了 EditLens—— 一个全新模型，旨在量化一段文本中 AI 辅助的程度。

审稿意见中 AI 使用程度的预测、评分以及置信度。

结果发现 21% 的审稿意见被 EditLens 标记为完全由 AI 生成。并且，完全由 AI 生成的评审平均得分高出 0.3 分，长度也比完全由人类撰写的评审长了 26%！

完全由 AI 生成的审稿意见示例如下：

对于有人询问的 AI 评审的「置信度」问题，Pangram Labs 发现：完全由 AI 生成的评审比人类或 AI 辅助撰写的评审更倾向于给出置信度为 3 的评价。不过，这个差异幅度较小，因此仍需谨慎解读。

另外，为了验证所用模型的准确性（假阳性率），Pangram Labs 使用 ICLR 2022 的审稿意见运行了 EditLens，结果发现：轻度 AI 编辑的假阳性率为千分之一，中度 AI 编辑的假阳性率为五千分之一，重度 AI 编辑的假阳性率为万分之一，而完全由 AI 生成的未出现任何假阳性。