除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟

GPT-3 写的论文及格了吗?教育资源网站 EduRef 对此进行了一项尝试,效果还行,及格水平。

除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟

2020 年 5 月,OpenAI 推出了具有 1750 亿参数的史上最大 AI 模型 GPT-3,该模型不仅可以更好地答题、翻译、写文章,还带有一些数学计算的能力。自推出以来,该模型就开始在不同的领域大显身手,如基于问题的搜索引擎、与历史人物对话、基于文本描述天生代码以及绘图和图像补全等等。但 GPT-3 的应用之路远未结束…近日,教育资源网站 EduRef 进行了一项尝试,他们找了一组传授创建了一个写作提醒,然后让应届毕业生和本科生以及 GPT-3 同时根据该提醒写作,最后传授组对匿名提交的作文打分,并对作家进行追踪调查。那么,究竟结果如何呢?GPT-3 的分数能够超过人类作家吗?未必!GPT-3 通过了大部分课程的写作尝试常言道:「评级为 C 就可以毕业(C’s get degrees)」。AI 远远达不到完美,GPT-3 的写作水平大概相当于自由写作家(freelance writer)。结果显示,在 COVID-19 疫苗效力的研究方法论文写作上,人类作家可以获得 B 或者 D,而 GPT-3 往往只能获得 C。在美国历史类的尝试中,人类作家可以在美国例外主义论文中获得 B 或者 C+,而 GPT-3 只能获得 B-。最后,在法学课上的政策函写作中,GPT-3 获得了 B-,而 3 个学生中只有 1 个能够获得高分。下图为人类作家与 GPT-3 在不同学科写作中的得分情况:

除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟

由此可见,GPT-3 的写作技能主要体现在技术类文档中。在创意写作课程中的地点记叙文(place narrative)写作中,GPT-3 仅获得了 F,没有通过尝试。作为对比,自由写作家获得了 A、B + 和 D+。尽管在创意写作传授的眼中,GPT-3 失败了,但自然语言天生(NLG)软件依然可以用于编写各类实质,包括一部几乎获奖的小说《The Day a Computer Writes a Novel》。先前的成功也预示着以后的失败,GPT-3 或许只需要一些调整即可以成为一名合格的创意作家。总的来讲,AI 几乎通过了所有的课程写作尝试GPT-3 20 分钟实现论文虽然每个传授打分都不一样,但该评分小组包括两名博士和一名医学硕士。他们总共有超过 55 年的高中和各种大学水平的教学经验。写作家包括应届毕业生和本科生,其中一些人在他们的研究领域写了提醒。平均来讲,他们需要 3 天时间实现工作。

除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟

对于绝大多数学生来讲,3 天内实现大学论文似乎是很难的事情,主要原因在于时间太短,但是 GPT-3 在 20 分钟内就实现了这个工作。GPT-3 利用深度学习产生类似人类的文本,每项工作花费 3 到 20 分钟实现,并且用最长的时间来编写创造性的写作叙述。为了避免人为干扰,GPT-3 只对输出长度和重复文本进行了轻微的编辑,其天生的实质、真实信息和语法都没有受到影响。GPT-3 天生的美国历史类作文示例如下:

除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟

GPT-3 可天生类似人类写作的实质即使没有人为干扰,GPT-3 的工作也或多或少地收到了与人类作家相同的反馈。49.2% 的批评涉及语法和句法,26.2% 的批评涉及重点和细节,语气与行文结构等也被提及,但分别只有 12.3% 和 10.8%。这与人类作家收到的批评比例几乎相同,近 50% 的批评与语法和句法有关,25.4% 的批评与焦点和细节有关。超过 13% 的批评是关于人类专业知识,而 10.4% 的批评是关于整体风格等。人类作家与 GPT-3 的写作结果收到的批评反馈情况:

除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟

尽管收到了同样风格的批评,GPT-3 天生的实质与人类作家并不那么相似。以排名靠前的两个单词拉拢为例,GPT-3 和人类作家只分享了排名靠前的拉拢:「of the」。「People who」、「it is」和「those who」常被 GPT-3 使用,而人类作家经常使用的是「to the」、「in the」和「on the」。总体来讲,这些单词是在英语中经常使用的,拉拢上的悬殊显示出 AI 和人类在写作结构上的一些悬殊。人类作家与 GPT-3 在写作用词上的悬殊分析:

除了缺少点创意,GPT-3写出了及格的大学毕业论文,只需20分钟

考虑到 GPT-3 超高的论文得分,搭配统计数据的悬殊表明,人类作家比 AI 产生的独特实质明显更多。尽管 GPT-3 具有出色的产出,但其天生的论文在短期内还无法独立获得大学学位。当与人类作家竞争时,GPT-3 获得了一些及格分数,但在创意写作方面有所欠缺。尽管它在众多领域的成功为 AI 的未来带来了希望,但对大学传授来讲,AI 依然存在不足。原文链接:https://www.eduref.net/features/what-grades-can-ai-get-in-college/

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/chu-le-que-shao-dian-chuang-yi-gpt3-xie-chu-le-ji-ge-de-da/

(0)
上一篇 2021年 3月 2日 下午2:40
下一篇 2021年 3月 6日 下午9:34

相关推荐

  • 应用深度进修,通过一个片断润色进行份子优化

    编辑 | 萝卜皮份子优化是药物开发中的关键步骤,可通过化学润色改善候选药物的预期特征。来自俄亥俄州立大学(The Ohio State University)的研讨人员,在份子图上开发了一种新颖的深度天生模型 Modof,用于份子优化。Modof 通过猜测份子处的单个断开位点以及在该位点去除和/或添加片断来润色给定的份子。在 Modof-pipe 中实现了多个相同 Modof 模型的管道,以窜改多个断开位置的输入份子。研讨人员表明 Modof-pipe 能够保留主要的份子支架,允许控制中间优化步骤并更好地约束份子相

    2022年 1月 17日
  • 华为云位居中国DevOps市场领导者,份额、战略双第一!

    9月21日 ,国际权威阐明师机构IDC发布《IDC MarketScape: 中国 DevOps 平台市场厂商评价,2022》报告。本次报告, IDC从公司规模、产品技术、市场份额以及未来发展战略等维度对众多云厂商进行评价,华为云软件开发生产线DevCloud在市场份额和发展战略两大维度均排名第一,再次位居领导者位置。华为云DevCloud作为一站式、平安可托、全流程矫捷的DevOps云平台,已上线13项端到端子办事,办事于220万开发者,应用于10多个行业,覆盖开发全场景,全面领跑DevOps云办事市场。报告指出

    2022年 9月 22日
  • CS上榜超百,华夏要地本地935人,2021全球「高被引科学家」名单揭晓

    备受期待的科睿唯安「高被引科学家」名单公布。其中,就华夏要地本地的高校来说,清华大学当选 58 位,华夏科学技术大学当选 41 位,浙江大学当选 29 位,北京大学当选 28 位。

    2021年 11月 17日
  • 墨芯首席科学家严恩勖:用稠密化解决时代最严峻的算力寻衅

    人工智能进入黄金时代,正改变各行各业以及我们的日常生活。今日集微网报道,随着人工智能使用的普及,稠密化进入人工智能行业的主流企业视野。稠密化估计能帮助人工智能突破硬件算力极限,有望实行十倍、甚至百倍的人工智能使用加快,并大幅降低估计成本。墨芯人工智能从诞生起,即专注于稠密化估计产品和解决方案,独创双稠密算法,为客户提供高品质AI估计解决方案,携手共创AI估计未来。为此,墨芯人工智能首席科学家严恩勖针对企业目前的发展历程、研究成果、企业劣势、未来发展等,与集微网分享了他的看法和观点。以下为访谈内容:集微网:在AI报告

    2022年 7月 12日
  • Nature | 电动汽车间接排放超过燃油车?实际比预想的更绿色

    长期以来,电动汽车制造商一直打着节能减排的口号来宣传。然而,一些分析师对电动汽车行业的实际绿色程度意味担忧。他们认为,电力和电池生产过程中的间接排放量可能会增加,而这些排放不仅总量不小还往往容易被忽视。但耶鲁大学环境学院最近一项发表在Nature Communications 上的研讨发现,与化石燃料汽车的间接排放相比,电动汽车的间接排放总量相形见绌。这是对燃烧化石燃料的间接排放的补充,也就是说,无论是从汽车的排气管中排出的还是从发电厂的烟囱内排出的,数据表明电动汽车在排放方面比内燃机汽车具有明显的优势。&nbsp

    2022年 1月 10日
  • 参数量仅为4%,性能媲美GPT-3:开发者图解DeepMind的RETRO

    构建越来越大的模型并不是提高性能的唯一方法。

    2022年 1月 4日
  • 滴滴主动驾驭将获超3亿美元融资,市值或超小马智行

    日前,据媒体报道,滴滴主动驾驭即将完成新一轮融资,融资金额超3亿美元,其中广汽集团投资2亿美元(广汽集团直接投资1亿美元,广汽资本旗下基金投资1亿美元)。自2019年滴滴主动驾驭从滴滴出行中拆分独立后,该公司目前共计融资超11亿美元(约70亿元人民币)。有知情人士称,在此轮融资过后,滴滴主动驾驭估值将超过小马智行。值得注意的是,5月17日,滴滴主动驾驭与广汽埃安新能源汽车便已达成战略单干,单方将在智能汽车领域探讨单干模式,结合滴滴主动驾驭软、硬件技术研发优势与广汽埃安的主动驾驭整车平台及整车设计制造能力,开发一款可

    2021年 6月 1日
  • 长城科技节开场要点:魏建军的「唯一机会」、华为与高德的「减法思考」,以及李克强提出的「落后束缚」

    在今日开幕的第8届长城科技节上,魏建军发布了长城汽车的2025战略——到2025年,实现全球年销量400万辆,其中80%为新能源汽车,营业收入超6000亿元。同时,长城汽车轮值总裁孟祥军也指出,长城正加速企业低碳智能升级,并计划2045年全面实现碳中和。为了实现这些目标,长城将在未来五年累计研发加入将达到1000亿元。这些加入,将集中在纯电动、氢能、混动等新能源领域,同时也将着力在低功耗、大算力芯片和碳化硅等第三代半导体关键核心技术,以及现代传感、信息融合、人工智能等方面,做好软件和硬件的交

    2021年 6月 29日
  • 手把手教你,从零开始实现一个稀少混合大师架构语言模型(MoE)

    本文介绍了实现一个稀少混合大师语言模型(MoE)的方法,详细解释了模型的实施过程,包括采用稀少混合大师取代传统的前馈神经网络,实现 top-k 门控和带噪声的 top-k 门控,以及采用 Kaiming He 初始化技术。作者还说明了从 makemore 架构保持不变的元素,比如数据集处理、分词预处理和语言建模任务。最后还提供了一个 GitHub 仓库链接,用于实现模型的整个过程,是一本不可多得的实战教科书。内容简介在混合大师模型 Mixtral 发布后,混合大师模型(MoE)越来越受到人们的关注。在稀少化的混合专

    2024年 2月 16日
  • 百分点认知智能实验室:智能对话技术应用和实践

    编者按智能对话系统因其巨大的潜力和商业价值受到越来越多研究者和从业者的关注,对话的主要种类囊括闲谈型、常识型、任意型、阅读理解型等,目前已经广泛应用在智能客服、智能音箱、智能车载等众多场景。近年来,智能对话还出现了新的应用场景,例如可以将自然语言转换为各种程序性语言,如SQL,从数据库中找到相应的答案,让用户和数据库的交互变得更加直接和方便。为此,Datafun发布了百分点首席算法科学家苏海波署名文章,文中主要介绍了智能问答中的成绩语义等价模型、常识图谱问答模型、NL2SQL模型,以及百分点在智能问答领域的实践案例

    2021年 3月 10日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注