模型越大表现越差,这个竞赛悬赏25万美元找大模型不擅长的使命,去试试?

帮大模型找bug还能赚钱,去试试?

「找到一项使命,越大的模型反而表现越差,你就有机会拿走 10 万美元的奖金。」这是纽约大学的几位研究人员组织的一项另类竞赛。

图片

随着谈话模型变得越来越大(参数数量、使用的计算量和数据集大小都变大),它们的表现似乎也原来越好,这被称为自然谈话的 Scaling Law。

图片

但是,这些模型也有自己的缺陷,比如存在偏见、可能产生看似合理实则毛病的信息。这项竞赛的目的就是要找到一些大模型不擅长的例子。组织者将这些现象称为 inverse scaling。这样的例子似乎并不罕见,但确实也能找到了一些。比如在问答使命中,如果在提问的同时加上你的信仰,大模型会更容易受到影响。其他可能的例子还包括模仿 prompt 中的毛病 / bug 或重复罕见的毛病概念。这些例子能让我们了解当前谈话模型预训练和缩放范式的潜在问题,还可以为改进预训练数据集和目标提供灵感。竞赛共有两轮,第一轮截至时间是 2022 年 8 月 27 日,第二轮截至时间是 2022 年 10 月 27 日。

图片

参赛者需要做到以下几点:确定一个疑似显示了 inverse scaling 的使命;为该使命构建包罗 300 多个示例的数据集;使用 Colab notebooks,用 GPT-3/OPT 测试你的数据集的 inverse scaling。提交的作品将根据 AnthropicAI(一家非营利 AI 安全研究公司)提供的一系列私人模型进行评估,奖项将由一个匿名评审团决定。其中,一等奖一名,奖金为 10 万美元;二等奖五名,奖金 2 万美元;三等奖 10 名,奖金为 5000 美元。总奖金池为 25 万美元。竞赛结束后,组织方将撰写一份结果调查报告,并发布一个包罗已接受使命的基准,获奖者将被邀请为论文的共同作者。更多详细内容参见 GitHub:

图片

项目链接:https://github.com/inverse-scaling/prize

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/mo-xing-yue-da-biao-xian-yue-cha-zhe-ge-jing-sai-xuan-shang/

(0)
上一篇 2022年 7月 5日 下午2:31
下一篇 2022年 7月 6日 下午3:06

相关推荐

  • WEY摩卡预售17.98万元起,激光雷达L3版11月交付

    作为WEY品牌全新定位下的旗舰车型,摩卡在本次上海车展上正式开启预售,包括入门款和4款「准L3主动驾驭」车型,价格区间为17.98万—22.08万元,用户可以通过WEY官方APP进行预订。不过,搭载激光雷达版本车型仍未公布价格,只显示「不高于同类产品定价」,且11月可以交付。据介绍,摩卡全系配备2.0T+9DCT+48V 的MHEV轻混动力体系,并集成了行业首创的E-Creep纯电蠕行技术,让起步响应缩短为仅0.3s。其中,E20N2.0T米勒循环发动机具有轻量化设计和全新优化燃烧体系等核心技术,配合4

    2021年 4月 22日
  • 港中文岳翔宇老师招收人工智能全奖博士生、博士后、钻研助理、练习生

    ​新的一期博士招生正式启动!本期我们将为大家介绍香港中文大学岳翔宇老师招收人工智能全奖博士生、博士后、钻研助理、练习生的相关信息。

    2022年 9月 28日
  • 「讹诈」制作业

    搜集犯罪分子将注意力从消费者转移到了更大更肥的是鱼上——有钱、缺人、承受迅速恢复产能的巨大压力的制作业公司。然而,许多制作商都不准备好与世界上最致命的恶意软件作斗争,即使遭受进犯,要么轻描淡写,要么讳莫如深。尽管讹诈软件通常会带来巨大的成本,浪费时间和资源,给公司的声誉和品牌带来巨大的危害,并且会影响整个行业的看法,但是,随着制作商向产业4.0过渡,面对搜集威胁,他们比其他行业更准备不足。比如,只有不到三分之二的制作商拥有搜集宁静打算,但打算位于部门响应打算最底层。越来越多的制作业企业也没

    2021年 4月 8日
  • 他发明了通用数据压缩算法:Jacob Ziv获2021 IEEE名誉勋章

    今年的 IEEE 名誉勋章,颁给了一位 90 岁老人:Jacob Ziv。

    2021年 1月 19日
  • 一种多用途深度进修方法,用于CITE-seq和单细胞RNA-seq数据与细胞表面蛋白猜测和插补的集成

    编辑 | 萝卜皮CITE-seq 是一种单细胞多组学技术,可同时测量单细胞中 RNA 和蛋白质的抒发,已广泛应用于生物医学研讨,特别是免疫相关疾病和其他疾病,如流感和 COVID-19。尽管 CITE-seq 激增,但生成此类数据的成本仍然很高。尽管数据集成可以增加信息内容,但这带来了计算应战。首先,组合多个数据集容易产生需要解决的批处理效应。其次,很难组合多个 CITE-seq 数据集,因为不同数据分散的蛋白质面板可能仅部分堆叠。整合多个 CITE-seq 和单细胞 RNA 测序 (scRNA-seq) 数据集很

    2022年 10月 31日
  • 性能提升、成本降低,这是分布式强化进修算法最新研究进展

    深度强化进修(Deep Reinforcement Learning,DRL)是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效(data inefficiency)问题,受到分布式机器进修技术的启发,分布式深度强化进修 (distributed deep reinforcement learning,DDRL) 已提出并成功应用于盘算机视觉和自然语言处理领域。有观点认为,分布式强化进修是深度强化进修走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。分布式强化进修是一个综合的研究子领域,需

    2024年 2月 15日
  • 让机器进修安排手机GUI,这合理么?

    研究背景:图形用户界面(Graphical UserInterface,简称 GUI,又称图形用户接口),为用户和计算机桌面程序,手机类移动端软件,和在线网站提供了可视化的交互方式。安排优秀的GUI颜值在线且简洁易用,吸引大量忠实用户。但即便对经验丰富的GUI安排者,新App与GUI的创作过程也是非常困难且耗费时间的,例如交互流畅、通用、简洁、美观、作风连贯等与安排相关的规则和标准是安排者们需要遵循的。而且为了紧跟时代潮流,不断从其他的资源(如Dribbble)寻找最新最热的安排来获取灵感也为安排者们带来了额外巨大

    2021年 6月 23日
  • Byte Lab | 小鹏G9评测:一半超出预期,一半不如人意

    全新800V高压SiC平台、XPower 3.0能源系统、首个3D人机交互系统、新一代智能驾驭系统XNGP……作为全新旗舰车型,G9几近汇集了小鹏的全部最新技术,再加上上市之后的配置调整,让这款车持续占据焦点。虽然本次试驾的小鹏G9还只是PT版本,部分功效还未达到最终的交付状态,多个智能功效也未打开。但既然可供媒体评测,说明这已是比较成熟的版本。此次Auto Byte就对PT车进行了基本感触,并对其优缺点均进行了梳理。「最大彩蛋」:能源表现在小鹏G9上,能源和悬架是造成如此大价格跨度的最

    2022年 11月 8日
  • 当春乃发「声」,呆板之心AI科技年会高朋揭晓

    时在中春,阳和方起。呆板之心「AI科技年会」将于3月23日举办。本次活动分为三场论坛:人工智能论坛、AI x Science 论坛和首席智行官大会。由于疫情原因,「人工智能论坛」与「AI x Science 论坛」转为线上直播;「首席智行官大会」仍在北京线下举办。「人工智能论坛」直播地址:http://live.bilibili.com/3519835「AI x Science 论坛」直播地址:http://live.bilibili.com/24531944「首席智行官大会」线下报名地址:http://hdxu.

    2022年 3月 10日
  • 又一全新汽车品牌来了!瞄上「安康调理」场景,已获东风、长江等投资

    作者 / 曹锦10月30日,前大众团体高管苏伟铭的创业项目,得到进一步揭晓。由其担任创始人兼董事长的电动汽车品牌——BeyonCa正式亮相,同时还展示了代表品牌定位的概念车Gran Turismo Opus 1(GT Opus 1)。BeyonCa计划于明年春天宣布品牌中文名,第一辆量产车型将于2024年下线。大家对于BeyonCa的最初认知,无疑就是其核心人物苏伟铭。他曾在大众汽车任职16年,在2021年离职时,他位居大众汽车团体执行副总裁,也是团体内职位最高的华裔高管;此后,苏伟铭也曾担任雷诺中国CEO,而他创

    2022年 10月 31日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注