100位中国学者合作的研究综述被曝抄袭,智源发表声明:承认错误(组图)
昨天,国内人工智能学术圈曝出了一起重大的论文抄袭事故,登上知乎热搜:
谷歌大脑研究员于4月8日在个人博客发文,指出北京智源人工智能研究院、清华大学等等单位新近合作发表的综述论文“A Roadmap for Big Model”(大模型路线图)抄袭了他们的论文“Deduplicating Training Data Makes Languages Models Better”与其他论文,共计十余处。
消息一出,立刻在国内外的社交媒体上引起了众多AI研究者的关注与讨论。
由于该论文篇幅长达200页,涉及的学者众多(一百位),因此,自抄袭消息从北京时间4月13日早晨登上知乎热搜开始,AI科技评论编辑组就一直在尽可能与多位涉事学者核实情况,以求尽可能做到真实、客观、严谨的讨论。
毫无疑问,该论文在arXiv上发表,作为单单由就职于中国研究机构与高校的学者所合作撰写的研究综述,论文被曝抄袭,必然会使中国的AI学术圈蒙羞。
多位学者向AI科技评论表示,这一抄袭事件对华人学者的名声造成了极大的负面影响。
这再次警示我们的学者:学术诚信原则神圣不可侵犯,应将论文写作规范时时铭记在心,不要突破科研的基本底线。
与此同时,我们也需要做到理性分析。论文抄袭被国际友人讨论与抨击,不是藤断瓜落,而是雪山崩塌。作为圈内的一份子,我们不应抱着「吃瓜」的看客态度将此事潦草带过,也不应一杆子打翻一船人。廉洁建设,人人有责。
追索真理,本就是科研的态度。
1、论文详情
首先让我们来回顾一下事件的经过:
今年3月底,一篇由19家机构、100位中国学者联合署名发表在 arXiv 上的200页论文引起了国内外人工智能领域的广泛关注。
这篇论文是一篇研究综述,题为“A Roadmap for Big Model”(大模型路线图),主要围绕近年来人工智能领域兴起的大规模语言/视觉模型(如GPT-3)研究进行了深入归纳与讨论。
此外,该论文在首页即表明:大模型的路线图由清华大学的唐杰教授设计,分为十八节,包含16篇章节,16篇章节中的每一节由一位(部分为两位)通讯作者组织。
论文地址:https://arxiv.org/pdf/2203.14101.pdf
从文章的出发点(促进大规模人工智能模型的研究)、合作作者数量与署名机构的权威性来看,这篇研究综述对AI研究者均有极大的阅读吸引力。Google Brain的研究员Nicholas Carlini就是其中一员。
但随即,4月8日,Nicholas在他的个人博文发文,称“A Roadmap for Big Model”一文抄袭了他参与的论文“Deduplicating Training Data Makes Language Models Better”,而且,他还指出,这篇论文至少还抄袭了十余篇其他论文。
博文地址:https://nicholas.carlini.com/writing/2022/a-case-of-plagarism-in-machine-learning.html
在他的博文中,他用绿色高亮部分对比了大模型路线图一文(左)与其他被抄袭论文(右)的重合部分。其中,我们可以看到,Nicholas所标亮的内容基本是几句话构成的一大段「复制-粘贴」:
需要注意的是,AI科技评论对比了“A Roadmap for Big Model”与“Deduplicating Training Data Makes Language Models Better”等多篇文章,并借助论文查重器,发现Nocholas 指出的10处重复来自于多篇不同文章,而知乎的问题让人感觉Nicholas在自己的一篇文章里找出了10处重复。
Nicholas的文章发表后,立即在Twitter上引起了不少注意。因此,在4月12日(北京时间4月13日),他又在个人博客中作了更新说明:
没想到这篇文章发出后受到了这么多关注……我恳请:不要将这件事变成一场盖帽子的政治迫害。我见过一些人因为对类似事情发声而导致相关人员立即被解雇或被禁止使用arXiv等等。我不会随便断定这篇论文(大模型路线图)是复制自多个来源。在不了解实际的情况下,我不想做判断。也许一些资历较浅的作者本意是好的,认为有了引文就可以直接复制文本了。这当中也许有来自上层的压力,让一些学生以为要按时交稿,他们的唯一选择是偷工减料;而对于资深作者来说,他们可能阅读了文本、认为它读起来很合理,并只是对文本进行了微调,而不知道文本的来源。关键是「我们不知道」。这篇论文的合作者有100位,什么情况都是有可能的。
2、核查与声明
紧跟推特讨论,知乎网友也开始关注到此事。4月13日,题为「如何看待智源、清华等单位论文 A Roadmap for Big Model 中大量段落被指涉嫌抄袭?」的话题冲上热搜,立即引来了超过500万的关注度。4月13日一早,当事方智源即在知乎回复,表示注意到了对该论文的质疑,正在对相关情况进行核实,并尽快通报有关进展。
针对该事件,AI科技评论也向该论文涉嫌抄袭章节的多位作者进行了核查。
由于论文的合作作者多达100位,首先我们需要理智看待的一点是:不能将100位作者相提并论,更不能将一部分作者的抄袭扩大为全部作者的抄袭。
从论文的作者名单可以看到,中国人工智能领域的多位知名权威学者均在其列:
参与该论文的19家机构中,中国高校有6所,中国高校/政府研究机构有4所,企业有5家(腾讯、华为、京东、字节跳动、微软)。其中,分别排名第一与第二的北京人工智能研究院与清华大学最突出:
AI科技评论也注意到,Nicholas指出的疑似抄袭部分重复的严重程度不同,大致可分为三类:
较为明显的大段复制,较明显的如第2篇文章3.1节(报告P.13-14,对应于Nicolas的第一处质疑);
图注:报告P13-14的大段Copy
未给出论文索引的复制,如第8篇文章3.1节(报告P.69,对应于Nicolas的第三处质疑)复制自《LXMERT: Learning Cross-Modality Encoder Representations from Transformers》、第14篇文章第2节(报告P.107,对应Nicolas第七处质疑)复制自《Multilingual Denoising Pre-training for Neural Machine Translation》,但在此前版本中的引用文章列表内并未包含这两篇论文。
图注:报告P69和P107,复制内容前的引用均不是包含复制文字的论文,也没有给出论文的相关信息,容易让人误解为作者的原创。
作者缺乏经验导致的复制,如第2篇文章4.3节(报告P.16,对应于Nicolas的第二处质疑)以及第10篇文章第二节(报告P.80,对应于Nicolas的第四处质疑),均为在复制内容前有类似“在XXX作者的XXX文章中提出...”的字样,随后直接复制原作者论文中的总结部分,这也与Nicolas文章更新中提到的“也许一些资历较浅的作者本意是好的,认为有了引文就可以直接复制文本了”相吻合。
图注:报告P16和P80,复制内容前给出了论文的相关信息,但没有用自己的话总结而是直接Copy。
在AI科技评论与作者的沟通中,多位学者也与AI科技评论表示,被指出涉嫌抄袭的部分不是自己提供的内容。所以这件事情出来后,有的老师表示“我自己都是懵的”;而对于AI科技评论针对Nicolas文章所提出的发现,我们所联系的老师也均做出了积极的补救措施。
4月13日晚,作为第一责任单位的北京智源人工智能研究院(BAAI)智源在官方网站、知乎、Twitter等国内外平台上公布了内部调查的初步结果。
官网声明地址:https://www.baai.ac.cn/portal/article/index/cid/4/id/404.html
智源对这次论文抄袭事故作了调查,公布的初步内部调查显示有5个章节“应属抄袭”:
1. 该报告是一篇大模型领域的综述,希望尽可能涵盖国内外该领域的所有重要文献,由智源研究院牵头,负责框架设计和稿件汇总,并邀请国内外100位科研人员分别撰写了16篇独立的专题文章,每篇文章分别邀请了一组作者撰写并单独署名,共200页。报告发布后,根据反馈持续进行修改完善,到4月2日在arXiv网站上已经更新到第三版。
2. 4月13日,我们获悉谷歌研究员Nicholas Carlini在个人博客上指出该报告抄袭了他们论文的数个段落,同时还有其他段落和语句抄袭其他论文。我们对此进行了逐项核查,经查重确认第2篇文章的第3.1节179个词,第8篇文章的第3.1节74个词、第12篇文章的第2.3节55个词、第14篇文章的第2节159个词、第16篇文章的第1节146个词与其他论文重复,应属抄袭。我们决定立即从报告中删除相应内容,报告修订版今天将提交arXiv进行更新。目前已通知所有文章的作者对所有内容进行全面审查,后续经严格审核后再发布新版本。
智源表示,“已通知所有文章的作者对所有内容进行全面审查,后续经严格审核后再发布新版本”。此外,智源还称:他们将邀请第三方专家对报告进行独立审查,根据正式调查结果对相关责任人作出问责处理。
需要特别一提的是,《道歉信》中所列举的抄袭并未完全对应Nicolas文章中的10处质疑(如对第10篇文章就并未提到)。在AI科技评论与智源的事后沟通中得知,道歉信中仅为智源内部参照IEEE抄袭的五级标准进行自查的部分初步结论列举,正式的认定以第三方正式调查结果为准,“不排除还有其他部分被认定为抄袭”。
3、各方反应及后续需要关注的问题
《道歉信》发出之后,在Twitter、微博等平台上也有不同观点。
一种声音是来自国外网友的质疑。如在Twitter上,网友@allonsy 表示对声明的不认同:“看起来你们并没有对抄袭进行惩罚的打算。你们给世界留下了不好的印象,我以与你们为伍感到羞耻。”
对此,智源副院长刘江回复:“请等待后续消息。”
另一种声音是以马毅为代表的华人学者的支持:
在AI科技评论看来,智源勇于承担的精神十分可嘉。
但仍要指出的是:尽管智源发表了致歉声明,但由于这只是一个初步的内部调查,对于造成这次事故的原因几乎没有提及,暂时没有人被追责,这或许也是国外网友认为道歉声明“避重就轻”的原因。
而根据AI科技评论事后与智源的沟通,智源表示会启动第三方专家调查,以消除这一事件的不利影响。第三方专家的邀请将遵循国际通用的回避原则(如师生、合作者等),并且也考虑邀请部分国外专家如Nicolas参与调查。但在正式调查结果公布之前,对抄袭发生的原因、规模、涉及的作者进行猜测是不合适的,这也是刘江回复“请等待后续回复”的原因。
而根据智源的总结,他们在报告编写过程中犯了一个错误是没有对所有作者提交的信息按照论文的标准进行查重。在报告的编写过程中更多的是参照杂志大专题的方式,将报告分解为多篇文章进行汇总,在互联网上发布并根据反馈进行修改和快速迭代。而由于协作单位众多,各单位的执行标准不一以及时间问题都是最终导致这一事件的客观因素。
智源表示,他们要坚定地承担起组织和审查严谨度责任,绝不推脱。
类似地,也有老师向AI科技评论称,国内学术界很多人有这样一种观点,认为Arxiv论文“没有经过同行评议,不算正式的论文。”
但该老师也承认,这件事给国内学术界敲了警钟,因为“公开就要负责,一旦做Co-Authors就得给整篇文章把关”。
正如 Nicholas 指出,100位作者,任何事情都可能发生。
智源于2018年成立,是政府牵头支持的科研机构,自成立以来,逐渐成为国内人工智能研究的领头羊,推出「悟道」大模型等成果,值得赞许。这次的“A Roadmap for Big Model”对标斯坦福的「Foundation Model」,也体现出紧跟前沿的执行力。
图注:斯坦福「Foundation Model」的论文作者数量同样十分庞大
但在这种多人参与大报告的具体执行上,国内学者还需要在细节上下更多功夫。如一位学生在知乎该问题的回复,如何以此为契机加强国内学术圈优良学风的建设,对包括论文、文章、代码等各种抄袭严格说No,才是值得当事人思考的地方。
毕竟只有平时的小事做好了,在做大事的时候才不会拉胯。
图注:知乎相关问题下,一位学生关于学风的回答
对于这一事件的后续发展,AI科技评论一方面会持续关注。对于该事件的前因后果,以及如何规避,相信读者仍有着不少疑问。
在与智源的沟通中,我们也列出了一些我们关注的问题。其中部分问题智源给出了回答,但有的问题仍需要有待第三方调查结束后才能得到结论。具体问题如下:
Q:这篇研究综述涉及到19家机构,分为18分部分综合而成,智源如何组织?
A:智源在组织这篇研究综述的时候是将其当做一个报告而非正式论文,因此采取的也是类似“大专题”的形式分解成多篇文章,每篇文章也有专门的通讯作者署名负责。在平台上选择的也是Arxiv这种互联网平台,以便于得到反馈后得以修改更新。雷峰网
Q:智源在声明中称会转交第三方专家独立处理,第三方专家由哪些人组成?回避的原则是?
A:从消除不利影响的角度上来说,我们当然希望越快调查完越好,但在比较短的时间例如一个星期完成也是不现实的。智源目前有一些第三方专家的意向人选,但还没有最终定下名单。我们会按照现成的原则进行回避,如师生关系、合作者关系都是需要回避的。
Q:智源如何判断是否构成抄袭?关于10处问题的的严重程度如何认定?是否意味着接受有的知乎网友的说法,提到了原论文并摘抄就不算?
A:智源的初步报告中列举的只是我们根据IEEE抄袭的五个等级进行认定、目前可以确认的内容,这并不是最后结论。我们也会借助专业工具,在后续的第三方调查中也有可能会有新的内容被认定为抄袭。
Q:在后续的科研工作开展中,你们会如何规避类似此次的抄袭事故?
A:我们犯的一个错误是没有按论文的标准在对这篇报告进行查重。如果我们做了查重,我们就能发现上述问题,并反馈给作者进行更改。智源对学术不端持零容忍态度,以后会通过开展作者自查、学风教育等方式避免类似事故发生。也欢迎学术界、媒体进行监督。雷峰网
Q:事件调查完成后,智源是否会发布明白的事件经过调查公告?
A: 会发布相关公告。
Q:关于论文「引用不当」与「抄袭」,智源的理解是怎样的?是否会对科研工作者制定严格的写作规范指南?
A:我们一定会制定严格的写作规范指南。而且这个指南和国际标准不会有太大出入。
而下列问题的回答本身属于调查的一部分,仍需智源进行进一步调查:
该论文的每一位署名作者,是否在论文发表前对全文内容具有知情权、并在发表时征得每位作者的同意?
是否存在如一个被删除的回答所说,只给他一个星期的写作时间,而且并没有最后通阅全文?
为什么是100位作者,是否有凑整数好看之嫌?为此,是否存在如知乎回答所说导师让学生干活而只挂自己名(可能是限于名额),然后学生只保证有东西不保证质量的情况?
十年树木、百年树人。人才永远是科研进步的根基,若因学术不端事件打击青年人才的科研积极性,对学术失去信心,那中国的AI未来发展便真的是岌岌可危了。
时日维艰,也希望学者铭记:你们的科研资金来自于纳税人。做研究,是要有责任心的。
最后,相信学者们以后在论文合作上都会留一个心眼了。但愿这次事件没有阻碍学术的交流。