刚刚,ChatGPT官宣数学本领再升级,网友:终于精通十以内加减法了

随着 ChatGPT 热度一直不减,OpenAI 持续拓展其本领。同时,ChatGPT 的竞品不断涌现,如何更准确检测其天生文本也成为了近来学界的一大研究课题。自 ChatGPT 发布以来,它的本领不

随着 ChatGPT 热度一直不减,OpenAI 持续拓展其本领。同时,ChatGPT 的竞品不断涌现,如何更准确检测其天生文本也成为了近来学界的一大研究课题。

自 ChatGPT 发布以来,它的本领不断被人们解锁,比如写神经网络、做智能音箱。人们在试用中慢慢发现,数学本领是 ChatGPT 的一大短板,连简单的「鸡兔同笼」题都能算错。

大概是考虑到了这一点,ChatGPT 刚刚宣布了一次重要更新:提升了「真实性」和「数学本领」。

图片

本次是 ChatGPT 自去年 11 月推出以来的第三次更新,但由于「更新说明」过于模糊,人们还需要经历一个对新本领的探索过程。

几日前,计算机科学家、Wolfram 言语之父 Stephen Wolfram 将理工科神器 Wolfram|Alpha 与 ChatGPT 结合起来,为后者注入超强计算知识实现互补,效果相当不错。

那么,这次更新之后的 ChatGPT 数学本领可与其一战吗?

看起来…… 对比的结果不尽如人意:

图片

「只能说神经网络不是用来干这个的」,Sebastian Raschka 都觉得无奈了。

还有人发现,升级后的 ChatGPT「脾气逐渐暴躁」:

图片

「你数学是哪位老师教的?」面对一道十以内加减法的题目,它的语气像极了辅导孩子作业的家长。

这也许是「偶然现象」?看来数学是真难。

不管怎么说,我们可以期待一波后续的有趣 Demo 了。

太卷了:ChatGPT 和它的竞争者们

「未来 6 到 12 个月将带来实验的爆炸式增长,一旦公司能够使用 OpenAI 的 API 在 ChatGPT 之上建立。出现的杀手级用例可能是围绕天生式 AI 对知识管理的影响。」

图片

Nicola Morini Bianzino。

在最近的一次公开活动上,安永全球首席技巧官 Nicola Morini Bianzino 表示,目前还没出现在企业中使用 ChatGPT 的「杀手级」用例。但这种状态可能很快就会改变,他预测未来 6 到 12 个月将带来大量实验,尤其是当公司能够使用 OpenAI 的 API 在 ChatGPT 上建立之后。

Bianzino 将天生式 AI 对知识管理的影响描述为「AI 的辩证法」。「知识公司倾向于以一种非常扁平的二维方式存储知识,这使得访问、互动和对话变得困难。我们在 20、30、40 年前尝试建立专家系统。这并不是很顺利,因为它们太死板了。我认为这项技巧有望克服专家系统存在的许多问题。」Nicola Morini Bianzino 表示。

与此同时,ChatGPT 的竞争者们也不断涌现,这个赛道变得越来越「卷」。从 Anthropic 公司的 Claude、DeepMind 公司的 Sparrow、google公司的 LaMDA 到 Character AI,每天似乎都有新竞争者步入赛场。

Anthropic 是一家旧金山的初创公司,由几位离开 OpenAI 的研究人员于 2021 年创立。公司成立不到一年后就宣布了高达 5.8 亿美元的融资,上周五还被报道即将增加 3 亿美元融资。

这家公司开发了一个名为「Claude」的 AI 谈天机器人,目前通过 Slack 集成在封闭测试版中可用,据报道它与 ChatGPT 相似,甚至有一些改进。Anthropic 描述自身的使命为「致力于建立可靠、可解释和可操纵的 AI 系统」。

DeepMind 同样是这条赛道上不可忽视的力量。这家公司在 9 月份的一篇论文中介绍了 「Sparrow」,被誉为「朝着创建更安全、偏差更小的机器学习系统迈出的重要一步」。Sparrow 是「一种有用的对话智能体,可以降低不安全和不适当答案的风险」,旨在「与用户交谈、回答问题并在有助于查找证据」。 

不过,DeepMind 的安全研究员、 Sparrow 论文的主要作者 Geoffrey Irving 表示,DeepMind 认为 Sparrow 是一个基于研究的概念验证模型,尚未准备好部署。

在两周前的《时代周刊》文章中,该公司的首席执行官兼联合创始人 Demis Hassabis 表示,DeepMind 正在考虑在 2023 年的某个时候发布其谈天机器人 Sparrow 的「私人测试版」。如此一来,公司就可以开发基于强化学习的功能,比如引用来源 —— 这是 ChatGPT 所没有的本领。

再说到google的 LaMDA,这一模型曾在去年夏天引发过热议 —— google工程师 Blake Lemoine 因声称 LaMDA 具有感知本领而被解雇。

即使不像 Lemoine 认为的那样,LaMDA 仍被认为是 ChatGPT 最大的竞争对手之一。google在 2021 年发布的博客文章中表示,LaMDA 的对话技巧「已经酝酿多年」。与 ChatGPT 一样,LaMDA 建立在 Transformer 架构之上,也接受过对话方面的训练。

根据google的说法,「在训练期间,LaMDA 发现了一些将开放式对话与其他形式的言语区分开来的细微差别。」

《纽约时报》在 1 月 20 日的一篇报道中提到,google创始人 Larry Page 和 Sergey Brin 上个月会见了公司高管,讨论了 ChatGPT 可能对google 1490 亿美元的搜寻业务构成的威胁。google发言人在一份声明中表示:「我们继续在内部测试我们的 AI 技巧,以确保它有用且安全,我们期待尽快与外部分享更多经验。」

另外一位颇具实力的玩家则是 Character AI,这家公司由 Transformer 论文作者之一 Noam Shazeer 创办,逐渐为人熟知。

该公司推出的 AI 谈天机器人技巧允许用户与任何人谈天或进行角色扮演,比如模仿伊丽莎白女王和莎士比亚等历史人物。目前该技巧是免费使用的,Character 正在「研究用户如何与之互动,然后再制定具体的创收计划。」

传baidu将发布类似 ChatGPT 的谈天机器人

更能引起国内 AI 从业者关注的是,据路透社、彭博社等多家外媒报道称,baidu公司计划在 3 月份推出类似于 OpenAI 的 ChatGPT 的人工智能谈天机器人服务。

消息人士称,baidu计划在用户提出搜寻请求时整合谈天机器人天生的结果,而不仅仅是链接。「该工具尚未命名,将嵌入在主搜寻服务中,用户将返回对话风格的搜寻结果。」

在去年 12 月在一次内部讨论中,baidu CEO 李彦宏曾分享自己对 ChatGPT 的看法:「把这么酷的技巧变成人人需要的产品」才是最难的,希望baidu新的一年「至少能有一个高成长、有创新的业务,真正的 above and beyond our expectation」。

而据《科创板日报》1 月 30 日报道,baidu内部确有推出类似 ChatGPT 谈天机器人的规划,但具体时间并不精确。baidu CEO 李彦宏对于该项目的定位是「引领搜寻体验的代际变革」。他在内部指出,相关技巧已达到临界点,baidu在其中有较大的机会。

检测利器:让大型言语模型天生的文本无处隐藏

ChatGPT 的本领纵然强大,但同时它在学校作业、论文发表等领域的滥用已经引发了人们广泛的担忧。因此,学界开始探索检测 ChatGPT 等大型言语模型(LLM)天生文本的方法和工具。

马里兰大学几位研究者对 ChatGPT 等言语模型输出的水印进行了研究。在论文《A Watermark for Large Language Models》,他们提出了一种高效水印框架,水印的嵌入对文本质量的影响忽略不计,可以使用高效的开源算法进行检测,而无需访问言语模型的 API 或参数。

本文方法可以检测到比较短的合成文本(少至 25 个 tokens),同时使得人类文本在统计学上不可能被标记为机器天生。

图片

论文地址:https://arxiv.org/pdf/2301.10226v1.pdf

斯坦福大学几位研究者在论文《DetectGPT: Zero-Shot Machine-Generated Text Detection using Probability Curvature》中,证明了从 LLM 中采样的文本倾向于占据模型对数概率函数的负曲率区域。利用这一观察结果,他们定义了一个基于曲率的新标准,来判断一段文章是否由给定的 LLM 天生。

研究者将他们的方法称为 DetectGPT,它不需要训练单独的分类器、收集真实或天生段落的数据集以及显式地为天生文本加水印。DetectGPT 仅使用感兴趣模型计算的对数概率和另一通用预训练言语模型(如 T5)天生段落的随机扰动。

结果发现,DetectGPT 比当前模型样本检测的零样本方法更具辨别力,尤其是将 20B 参数 GPT-NeoX 天生的假新闻报道检测从最强零样本基线的 0.81 AUROC 提升到了 0.95 AUROC。未来将公布代码和数据。

图片

DetectGPT 检测 GPT-3 天生文本的示意图。

论文地址:https://arxiv.org/abs/2301.11305

除了以论文形式展现的检测方案,也有个人推出了强大的检测工具。比如一位来自 Hive AI、致力于 ChatGPT 检测器研究的 ML 工程师,其方案能够识别 ChatGPT、GPT-3 和其他流行 AI 引擎天生的文本

从内部基准测试结果来看,该方案效果明显优于 GPTZero 和 OpenAI GPT2 Output Detector 等类似方法。在内部数据集上,模型平衡准确率 > 99%,而 GPTZero 的准确率约为 60%,OpenAI GPT2 Output Detector 的准确率为 84%。

图片

Demo 地址:https://hivemoderation.com/ai-generated-content-detection

最后,GPTZero 也迎来了更新 ——GPTZeroX,一个专为教育者打造的全新 AI 检测模型。该模型可以混合处理 AI 天生和人类文本,并突出显示最有可能由 AI 天生的文本部分。此外建立了一个 pipeline 来处理 PDF、Word 和.txt 格式的文件批量上传,从而轻松运行多个文件。

图片

Demo 地址:https://gptzero.substack.com/p/gptzerox

总之,随着 AI 天生文本检测工具的日益丰富和日加完善,ChatGPT 等大型言语模型在应用时势必会越来越正规,帮助人们更高效地释放 AI 的本领。

参考链接:

《baidu进军 ChatGPT 李彦宏:相关技巧已达到临界点》 (https://mp.weixin.qq.com/s/1WZDu8aVcAUoHZfxjiMh7A)

https://mp.weixin.qq.com/s/URO054sLrNtVKryyv0TxGA

Who will compete with ChatGPT? Meet the contenders | The AI Beat

https://venturebeat-com.cdn.ampproject.org/c/s/venturebeat.com/ai/chatgpts-killer-enterprise-use-case-will-be-managing-knowledge-says-ey-cto/amp/

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/32408

(0)
上一篇 2023年1月30日 下午3:49
下一篇 2023年1月31日 下午2:30

相关推荐

  • ECCV 2022|全场景图天生PSG:追求「最全面」的场景懂得

    本文提出鉴于全景分隔的全场景图天生(panoptic scene graph generation,即PSG)义务。相比于传统鉴于检测框的场景图天生义务,PSG义务要求全面地输出图象中的所有干系(包括物体与物体间干系,物体与布景间干系,布景与布景间干系),并用精确的分隔块来定位物体。PSG义务旨在推动计算机视觉模型对场景最全面的懂得和感知,用全面的识别结果更好地支撑场景描述、视觉推理等下游义务。同时PSG数据集提供的干系标注和全景分隔也为解决当前图象天生领域对干系不敏感的问题创造了新的机遇。

    2022年8月23日
  • 微软开源 Windows Terminal Canary AI 谈天机器人功效,用户可导入自家模型

    微软在此前 Build 2023 开发者大会上,公布为 Windows Terminal 使用增添 AI 谈天机器人功效,可以“向用户推荐命令、解释错误,并辅助用户采取后续操作”。而日前微软公布将开放 Windows Terminal 的 AI 谈天能力,引入了“Terminal Chat”功效,微软宣称这项功效是“开源的”,并希望能够让开源社区辅助定义这款使用中的 AI 能力,同时邀请开发人员尝试体验并参与建立过程。

    2023年11月22日
  • 首次哄骗半监视注入学问,达摩院推出新型预训练对话模型,取得显著提升

    如何将人类先验学问低成本融入到预训练模型中一直是个难题。达摩院对话智能团队提出了一种基于半监视预训练的新训练范式,通过半监视的方式将对话领域的少量有标数据和海量无标数据一起从事预训练,将标注数据中蕴含的学问注入到预训练模型中去,新提出的半监视预训练对话模型(Semi-Supervised Pre-trAined Conversation ModEl)SPACE 1.0 版本在剑桥 MultiWOZ2.0,亚马逊 MultiWOZ2.1 等经典对话数据集上取得了 5%+ 显著效果提升。

    2022年4月14日
  • KDD 2023 | 因果启发的可解说框架:大模型解说的高效之路

    为了深入了解大模型的科学原理并确保其安全,可解说变得日益重要。解说大模型带来了很多独特挑战:(1)大模型参数特别多,怎么尽可能确保解说速度?(2)大模型涉及的样本特别多,如何让用户尽可能少看一些样本的

    2023年8月11日

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注