百位学者署名的大模型综述研究被质疑「剽窃」,智源研究院官方发布致歉信

智源研究院表示:「对这一情况,研究院立即组织内部调查,确认部分文章存在课题后,已启动约请第三方专家开展独立查看,并从事相关追责。」昨天,一则有关综述研究涉嫌「剽窃」的消息引发了海内外学术圈的热议:宾夕

智源研究院表示:「对这一情况,研究院立即组织内部调查,确认部分文章存在课题后,已启动约请第三方专家开展独立查看,并从事相关追责。」

昨天,一则有关综述研究涉嫌「剽窃」的消息引发了海内外学术圈的热议:

图片

宾夕法尼亚大学博士生、谷歌学生研究员 Daphne Ippolito 在推特上表示,智源研究院一篇拥有 100 位作家署名的综述研究《A Roadmap for Big Model》涉嫌剽窃了多篇论文实质,其中就包括自己团队的一项研究《Deduplicating Training Data Makes Language Models Better》,后者此前已被 ACL 2022 接收。

该事件迅速发酵,引起了社区广泛关注与讨论。

针对质疑,4 月 13 日,北京智源人工智能研究院发布了《关于 “A Roadmap for Big Model” 综述演讲课题的致歉信》,并表示:「对这一情况,研究院立即组织内部调查,确认部分文章存在课题后,已启动约请第三方专家开展独立查看,并从事相关追责。」

图片

智源研究院内部调查的初步结果如下:

1. 该演讲是一篇大模型领域的综述,进展尽可能涵盖国内外该领域的所有重要文献,由智源研究院牵头,负责框架设计和稿件汇总,并约请国内外 100 位科研人员分别撰写了 16 篇独立的专题文章,每篇文章分别约请了一组作家撰写并单独署名,共 200 页。演讲发布后,根据反馈持续从事修改完善,到 4 月 2 日在 arXiv 网站上已经革新到第三版。

2. 4 月 13 日,我们获悉谷歌研究员 Nicholas Carlini 在个人博客上指出该演讲剽窃了他们论文的数个段落,同时还有其他段落和语句剽窃其他论文。我们对此从事了逐项核查,经查重确认第 2 篇文章的第 3.1 节 179 个词,第 8 篇文章的第 3.1 节 74 个词、第 12 篇文章的第 2.3 节 55 个词、第 14 篇文章的第 2 节 159 个词、第 16 篇文章的第 1 节 146 个词与其他论文重复,应属剽窃。我们决定立即从演讲中删除相应实质,演讲修订版今天将提交 arXiv 从事革新。目前已通知所有文章的作家对所有实质从事全面查看,后续经庄重审核后再发布新版本。

3. 智源作为该演讲的组织者,理应对各篇文章的所有实质从事庄重审核,出现这样的课题难辞其咎。对此我们深感自责,特别感谢学术界和媒体的朋友们帮助我们发现课题。我们将深刻吸取教训,整改科研管理和论文发表流程,进展各界朋友监督我们工作。

涉嫌剽窃的细节

涉嫌被剽窃论文的作家之一 Nicholas Carlini 表示:「我的一位合著者正在阅读 Big Models 论文,并注意到其中一些文本似乎很熟悉,在快速查看后,我们发现实际上有一堆文本是直接从我们的论文中复制而来的。」

目前,在「Big Model」这篇论文的 arXiv 页面,管理员已经标注了两篇文章具有较高的文本重合度。

图片

在博客中,声称被剽窃的作家也做出了举证:「Big Models」剽窃了 Carlini 论文的参考和相关工作部分。如下所示,左侧是「Big Models」论文中的文本,右侧是原始论文中的相应文本。被「复制」的文本以绿色高亮显示:

图片

图片

图片

图片

事件引起多方讨论之后,Nicholas Carlini 本人在博客的革新中表示:

图片

这篇文章受到的关注比我想象的要多得多。(每小时访问这个页面的人数比上周访问我整个网站的人数还要多。)…… 在不清楚幕后情况的时候,我想避免做出判断。也许一些初级作家的本意是好的,认为有一条引文就可以复制文本。也许是来自上面的压力,让一些学生觉得他们唯一的选择就是按时交稿。对于资深作家来说,他们可能已经阅读了文本,认为它看起来非常合理,只是在不知道文本来自何处的情况下对文本做了一些调整。我进展这篇文章能够引起人们对此类事情的注意。例如,大约有 1% 的已发表和被接收的论文比这篇演讲有更高的数据复制比例。我应该在最初写博客的时候就给出这个背景。所以,再一次,请大家不要特别严厉地批评这篇论文。

最后想说一句,相信这件事也足以为大家敲响警钟,社区要庄重维护学术规范。正如 UC 伯克利教授马毅在微博上的观点:「庄重维护学术规范的地方,反而会因此受到同行尊重的。国内学术风气比较浮躁,学术规范意识薄弱,进展其他单位能够以此为例,共同改善我们的学术环境。」

图片

参考链接:https://nicholas.carlini.com/writing/2022/a-case-of-plagarism-in-machine-learning.html

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/25159

(0)
上一篇 2022年4月14日 下午3:43
下一篇 2022年4月14日 下午4:03

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注