google请印度标注员给Reddit批评数据集打标签,毛病率高达30%?

去年,google发布了 GoEmotions 数据集,该数据集包含 58K 野生标注的 Reddit 批评,其中涉及 27 种思绪。

google请印度标注员给Reddit批评数据集打标签,毛病率高达30%?

但一位名叫 Edwin Chen 的机械学习工程师却在使用该数据集的时候,偶然发现了一些令人哭笑不得的毛病。他们本来尝试自己在 GoEmotions 数据集上训练模型,注意到似乎存在一些深层的品质题目。于是他们随机抽取了 1000 条批评,在其中 308 条中发现了严重毛病。这里举一些有代表性的例子:aggressively tells friend I love them—— 被标志为「愤怒」Yay, cold McDonald's. My favorite.—— 被标志为「喜爱」Hard to be sad these days when I got this guy with me—— 被标志为「悲伤」Nobody has the money to. What a joke—— 被标志为「愉悦」……光是从抽取的批评中,他们就统计到了 25 种被毛病标志的思绪。在野生智能领域,数据标注是一项特别很是基础,但也特别很是要害的工作。好的数据对于训练模型至关重要,当数据面临如此离谱的毛病时,又该怎么训练模型并评价模型的性能呢?Edwin Chen 最后发问:「我们真的可以相信google能够创造出公正的事实世界野生智能吗?」所以,是什么导致了这些题目?有人说:「有没有可能,他们没请野生标注员,或者请的野生标注员并未控制流畅的英语?」google请印度标注员给Reddit批评数据集打标签,毛病率高达30%?据了解,GoEmotions 数据集的标注还是有野生参与的,只不过这些标注员是「以英语为母语的印度人」。在论文的第 3.3 节中,有这么一段话:「我们给每个样本调配了三个评价者。对于那些评价者没有达成一致的样本,我们调配了两个额外的评价者。所有评价者都是以英语为母语的印度人。」google请印度标注员给Reddit批评数据集打标签,毛病率高达30%?因为根据「Cowen et al. (2019b) 这项研究的结论,印度和美国两地的英语使用者的思绪判断维度很大程度上是相同的。google请印度标注员给Reddit批评数据集打标签,毛病率高达30%?事实是,尽管控制了流畅的英语,标注员之中的许多人可能不了解所标注文本的文化、社会背景。但这却是要害要点之一,尤其是对于 NLP 数据集,标注者必须具备充分的文化意识。google请印度标注员给Reddit批评数据集打标签,毛病率高达30%?也就是说,鉴于很多标注员可能缺乏必要的背景知识,即使大多数的数据标注都不存在争议了(如上图),也不代表标注结果就是完全正确的。造成这种题目的另一个重要原因是,数据集中的数据都没有附加的元数据 (比如作者或子版块名称)。原论文中也提到了这一点:

google请印度标注员给Reddit批评数据集打标签,毛病率高达30%?

google请印度标注员给Reddit批评数据集打标签,毛病率高达30%?语言不是处于真空之中的,它所在的版块等信息特别很是重要。google在构建数据集时却忽略了这一点。这不是一个孤立事件:作者还提到,假如连google这种拥有大量资源的公司都难以创建准确的数据集,那么我们见过的其他数据集品质更是难以想象。google请印度标注员给Reddit批评数据集打标签,毛病率高达30%?好消息是,已经有学者关注到了这个题目。上个月,吴恩达发起了「以数据为中心的 AI」倡议,他表示,专注于提升野生智能系统的数据品质将有助于释放其全部力量。如果你想部署事实中 work 的机械学习模型,是时候关注高品质数据集而不是更大的模型了。参考链接:https://arxiv.org/pdf/2005.00547.pdfhttps://www.surgehq.ai/blog/30-percent-of-googles-reddit-emotions-dataset-is-mislabeled

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/google-qing-yin-du-biao-zhu-yuan-gei-reddit-pi-ping-shu-ju/

(0)
上一篇 2022年 7月 19日 下午2:21
下一篇 2022年 7月 19日 下午3:44

相关推荐

  • 大咖Talk丨崔运凯:AI构造的未来——主动驾驭场景下的制胜要害

    2021年12月21日,由亿欧EqualOcean主办的“数字重塑世界-WIM2021世界创新者年会”在中国上海正式开幕。在“主动驾驭商用场景3.0时代” 篇章中,格物钛智能科技创始人兼CEO崔运凯发表了题为《AI构造的未来——主动驾驭场景下的制胜要害》的主题演讲。

    2022年 1月 11日
  • 后续!明尼苏达大学研讨者为bug事件致歉,Linux内核社区不予接受

    明尼苏达大学研讨者发表了致 Linux 内核社区的公开报歉信,但遗憾的是,Linux 内核维护者不接受他们的报歉。

    2021年 4月 27日
  • UC伯克利教授Pieter Abbeel开课了:六节课初学「深度加强进修」,讲义免费下载

    课程视频时间有点长,但希望你能享乐进修的快乐。将传统加强进修与深度神经网络结合的深度加强进修,一直以来被视为更接近人类思维方式的人工智能方法。深度进修具有强感知才能但缺乏一定的决议计划才能,加强进修具有决议计划才能但对感知问题束手无策,因此将两者结合起来可以达到优势互补的效果,为复杂系统的感知决议计划问题提供了解决思路。想要初学深度加强进修的同窗们,请高度注意,一份优秀、细致、全面的新教材出现了。今天,UC 伯克利教授 Pieter Abbeel 上传了自己的新课程《深度加强进修根源》的最后一节视频,并在推特上安利了一下。这份

    2021年 8月 26日
  • 华玉通软与TTTech Auto开启深度合作,推动DDS+TSN在智能汽车使用落地

    华玉通软(下称“华玉”)今天宣布将与全球领先的汽车保险平安软件技术领导者TTTech Auto进行深度合作,推动实现国内首个完全自主研发的DDS——“雨燕”通讯中间件(SWIFT DDS)与TTTech TSN及Slate调动工具的集成和落地。该方案利用DDS与TSN的天然互补性,将进一步满足智能汽车对及时性和保险平安性的需求,为新一代E/E架构供给坚实的下层支撑。随着智能驾驭的发展,高级驾驭辅助系统和主动驾驭系统等解决方案对于保险平安性能和及时性能的要求

    2022年 9月 14日
  • 为主动驾驭汽车创造「影象」,上交校友、康奈尔大学博士生两篇论文被CVPR 2022收录

    人经常走一条路能走熟,主动驾驭汽车也应该能。

    2022年 7月 14日
  • 六项使命、多种数据类型,谷歌、DeepMind提出高效Transformer评价基准

    自诞生以来,Transformer 在差别领域得到了广泛应用,钻研职员也提出了许多高效 Transformer 模型。如何评价这类模型呢?最近,谷歌和 DeepMind 提出了一项系统化的统一基准——Long-Range Arena,重点关注长语境场景下的模型质量评价。

    2020年 11月 29日
  • SENSORO 与柬埔寨国防部通讯局签署单干体谅备忘录

    2021 年 1 月 20 日,SENSORO(北京升哲科技有限公司)与柬埔寨国防部通讯局单干体谅备忘录签字仪式在金边举行。柬埔寨国防部通讯局局长 KOSAL Sovanvisal、SENSORO(柬埔寨)科技有限公司 CEO 赵龙作为单方代表共同签约。根据单干体谅备忘录,SENSORO 与柬埔寨国防部基于友好单干共识,单方将不断深化经验分享、加大单干力度,持续拓展单干畛域、打造单干新亮点,助力柬埔寨建造成为高端定位的新型聪明都会。自 2018 年以来,柬埔寨国防部曾多次到访 SENSORO,并持续推动双

    2021年 1月 21日
  • 除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟

    GPT-3 写的论文及格了吗?教育资源网站 EduRef 对此进行了一项尝试,效果还行,及格水平。

    2021年 3月 2日
  • 「清华系」视频天生公司生数科技宣布完成新一轮数亿元融资

    近日,北京生数科技有限公司(以下简称“生数科技”)宣布完成新一轮数亿元融资,由启明创投领投,达泰资本、鸿福厚德、智谱AI、老股东BV百度风投和卓源亚洲继续跟投。本轮融资将主要用于多模态基础大模型的迭代研发、应用产品立异及市场拓展。本轮由华兴资本担任独家财务顾问。生数科技成立于2023年3月,是全世界领先的多模态大模型公司,致力于图象、3D、视频等原生多模态大模型的研发。生数科技核心团队来自清华大学人工智能研究院,此外还包括来自北京大学和阿里巴巴、腾讯、字节跳动等科技公司的多位技能人才。此前公司

    2024年 3月 12日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注