模型越大表现越差,这个竞赛悬赏25万美元找大模型不擅长的使命,去试试?

帮大模型找bug还能赚钱,去试试?

「找到一项使命,越大的模型反而表现越差,你就有机会拿走 10 万美元的奖金。」这是纽约大学的几位研究人员组织的一项另类竞赛。

图片

随着谈话模型变得越来越大(参数数量、使用的计算量和数据集大小都变大),它们的表现似乎也原来越好,这被称为自然谈话的 Scaling Law。

图片

但是,这些模型也有自己的缺陷,比如存在偏见、可能产生看似合理实则毛病的信息。这项竞赛的目的就是要找到一些大模型不擅长的例子。组织者将这些现象称为 inverse scaling。这样的例子似乎并不罕见,但确实也能找到了一些。比如在问答使命中,如果在提问的同时加上你的信仰,大模型会更容易受到影响。其他可能的例子还包括模仿 prompt 中的毛病 / bug 或重复罕见的毛病概念。这些例子能让我们了解当前谈话模型预训练和缩放范式的潜在问题,还可以为改进预训练数据集和目标提供灵感。竞赛共有两轮,第一轮截至时间是 2022 年 8 月 27 日,第二轮截至时间是 2022 年 10 月 27 日。

图片

参赛者需要做到以下几点:确定一个疑似显示了 inverse scaling 的使命;为该使命构建包罗 300 多个示例的数据集;使用 Colab notebooks,用 GPT-3/OPT 测试你的数据集的 inverse scaling。提交的作品将根据 AnthropicAI(一家非营利 AI 安全研究公司)提供的一系列私人模型进行评估,奖项将由一个匿名评审团决定。其中,一等奖一名,奖金为 10 万美元;二等奖五名,奖金 2 万美元;三等奖 10 名,奖金为 5000 美元。总奖金池为 25 万美元。竞赛结束后,组织方将撰写一份结果调查报告,并发布一个包罗已接受使命的基准,获奖者将被邀请为论文的共同作者。更多详细内容参见 GitHub:

图片

项目链接:https://github.com/inverse-scaling/prize

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/mo-xing-yue-da-biao-xian-yue-cha-zhe-ge-jing-sai-xuan-shang/

(0)
上一篇 2022年 7月 5日 下午2:31
下一篇 2022年 7月 6日 下午3:06

相关推荐

  • WAIC开发者日Workshop预告:华为昇思MindSpore基础模型创新试验

    昇思 MindSpore 是华为开源的新一代全场景 AI 框架,支持端、边、云全场景灵活部署,开创全新的 AI 编程范式,降低 AI 开发门槛,旨在实现开发友好、运行高效、部署灵活三大目标,同时着力构筑面向全球的人工智能开源社区,推动人工智能软硬件应用生态繁荣发展。昇思 MindSpore 原生支持大模型,联合合作伙伴推出了四大领域创新模型。鹏城实验室鉴于昇思 MindSpore 先后推出了业界首个 2000 亿参数中文预训练语言模型鹏程,盘古和面向生物医学领域的鹏程,神农大模型、中科院自动化所鉴于昇思 MindS

    2022年 9月 1日
  • 如何防止我的模型过拟合?这篇文章给出了6大必备法子

    正如巴菲特所言:「近似的正确好过精确的错误。」

    2021年 1月 20日
  • 何为多标签分类?这里有几种实用的经典办法

    这可能是最实用的多标签分类小贴士。

    2021年 10月 12日
  • 这个夏天,跟陈天奇学「呆板进修编译」中英文课程,6月17日开课!

    陈天奇:「因为世界上还没有关于这个方位的体系性课程,所以这一次尝试应该会是和小伙伴们共同的探索」。随着呆板进修框架和硬件需求的发展,呆板进修 / 深度进修编译正成为一个越来越受关注的话题。在去年 12 月的一篇文章中,TVM、MXNET、XGBoost 作者,CMU 助理教授,OctoML CTO 陈天奇探讨了「新一代深度进修编译技术的变革和展望」。他指出,现在深度进修编译生态正围绕四类笼统展开:估计图体现、张量步调体现、算子库和运行情况、硬件专用指令。不过,由于篇幅受限,陈天奇并未就这一话题展开体系、详细的讨论,

    2022年 6月 4日
  • 中原基金与澜舟科技成立金融NLP联合实验室,共促金融科技立异

    近日,境内头部基金公司中原基金与NLP/AI范畴领先者北京澜舟科技签署战略协作协议,成立金融NLP(自然语言处置惩罚)联合实验室,协作探索自然语言处置惩罚技巧在金融范畴的使用;协作建立鉴于中原基金投资研究逻辑的舆情NLP本领;协作打造鉴于深度学习和预训练模型的金融行业搜索引擎,同时计划在其他数字化建立、立异技巧协作、交易使用等方面展开协作。中原基金首席数据官陈一昕,澜舟科技创始人兼首席执行官周明博士分别代表双方在北京签约。中原基金首席数据官陈一昕表示,科技立异是发展数字经济的核心源动力。金融行业如何促进科技与金融交易场景的

    2022年 6月 6日
  • 申请CS博士学位前,布朗大学Jeff Huang团队这份师资、排名和奖学金统计值得参考

    这是一份申请 CS 博士学位前可以认真参考的统计资料。

    2022年 5月 9日
  • 逼近量化训练?块重修技术打造离线量化新极限

    模型量化技术可以有效加速推理,已经成为人工智能芯片的标配,并在工业落地中广泛应用。离线量化(Post-Training Quantization)不需要耦合训练流程,利用成本和时间成本低,往往作为生产量化模型的首选方式,但其可调整空间有限,因此面临更大的准确度挑战,尤其是在一些特殊场景和极端要求下,不得不进一步引入更为复杂的在线量化(Quantization Aware Training)流程挽救,而这极大增加了量化模型生产的复杂度。如何在享受离线量化便捷高效的同时,在有限的调整“夹缝”中提升其成果上限,成为进一步打破技术红线的关键。在ICLR2021上,商汤科技研究院Spring工具链团队、高性能计算团队和成都电子科技大学顾实老师团队合作提出了块重修技术BRECQ,重新审视量化模型的优化粒度,首次将离线量化在4bit上的成果提升到在线量化的水平,相比在线量化可以节省大于200倍的生产时间,BRECQ在多种搜集和任务上普遍取得了业界最佳成果,打造了离线量化的新极限。

    2021年 3月 26日
  • 优必选科技四上春晚,“垦荒牛”机器人展现硬科技革新力量

    2月11日,在央视2021牛年春晚的舞台上,优必选科技全新研发的首款大型四足机器人化身“垦荒牛”,与刘德华、王一博、关晓彤等一起呈现了科技感十足的创意表演《牛起来》。它们以拼搏进取的深圳 “垦荒牛”为设计原形,融合祥云及华夏红等传统文化元素,以绚丽的灯光及机械结构诠释科技美感,伴随激昂的音乐奔腾向前。从2016年春晚540台Alpha机器人登台齐舞到2018年春晚24台Jimu汪汪组队拜年,再到2019年春晚6台Walker机器人与演员同台表演歌舞《青春畅想》……优必选科技已经四次登上春晚舞台,展示华夏人工智能和机

    2021年 2月 12日
  • 有人总结了70多个Python精选项目:再也不用去GitHub、Reddit大海捞针了

    进修一门编程语言比较好的方式是听人讲课吗?还是自己钻研书本?都算是。但阅读项目和亲手实现项目绝对是进步最快的方式。

    2021年 6月 12日
  • 来一场冬日技巧狂欢!WAVE SUMMIT+2020深度进修开发者峰会报名启动

    说到 798,大家都不陌生。就在下个周日, 12 月 20 日,在北京 798 艺术园区 751 罐,将要举行一场「别开生面」的 AI 开发者活动。

    2020年 12月 11日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注