Gary Marcus又来「整顿」AI圈:LeCun不可信,Nature审稿人没用脑子

这个周末刚过,我们再次看到了 Gary Marcus 对 AI 圈的最新「整顿」成果。「四天内关于人工智能和机械进修的三个令人费解的说法、顶级期刊的统计错误,以及 Yann LeCun 的一些说法,你都不应该相信。」以下是 Gary Marcus 的原文内容:一些事情即将发生。当《纽约时报》说一场革命即将到来,但事实上并不发生时,我从不感到惊讶。这种情况已经持续了很长一段时间(实际上是几十年)。比如,想想 2011 年时 John Markoff 是如何展望 IBM Watson 的。「对 I.B.M. 来说,这

图片

这个周末刚过,我们再次看到了 Gary Marcus 对 AI 圈的最新「整顿」成果。

图片

「四天内关于人工智能和机械进修的三个令人费解的说法、顶级期刊的统计错误,以及 Yann LeCun 的一些说法,你都不应该相信。」

以下是 Gary Marcus 的原文内容:

一些事情即将发生。当《纽约时报》说一场革命即将到来,但事实上并不发生时,我从不感到惊讶。这种情况已经持续了很长一段时间(实际上是几十年)。

比如,想想 2011 年时 John Markoff 是如何展望 IBM Watson 的。

「对 I.B.M. 来说,这场较量不仅是一场广为人知的宣传和 100 万美元的奖励,还证明了该公司已经朝着一个智能机械能够理解并对人类做出反应,甚至大概不可避免地代替人类的世界迈出了一大步。」

但 11 年之后的今天,John Markoff 所描述的愿景并不发生。人们仍然缺乏对人工智能的理解,真正被 AI 代替的工作也是极少数。我所晓得的每一辆卡车仍然在由人类驾驶(除了一些在受限场景下进行测试的卡车),目前还不放射科大夫被代替。Watson 本身近期也在被拆分出售。

《纽约时报》在 1958 年首次表示,神经网络即将处理人工智能题目。当然,展望 AI 并不是《纽约时报》的强项。

图片

但在过去的几天里,我看到一大堆严肃的研究人员也在提出类似的过度兴奋的主张,他们本应该更了解这个领域的情况。

第一个例子来自斯坦福大学经济学家 Erik Brynjolfsson,是三个例子中最不令人反感的一个,但仍有些过头。

图片

我看过很多种不同类型的狭义智能,一些智能在它们特定的领域能超越人类。人类智能(大概)比目前所有其他智能都更加广泛,但仍然只是智能空间中一个非常狭窄的部分。

Brynjolfsson 认为,人类智能是所有大概的智能空间中非常狭窄的一部分(这是乔姆斯基在我出生前就针对人类语言提出的观点),这个看法完全正确。毫无疑问,比我们更聪明的智能是有大概存在的,而且还大概实现。

但是,且慢——他帖子里的 「probably」是怎么回事呢?他甚至把它放到了括号里。

任何一个正常的 5 岁孩子都可以用他们几年前或多或少从零学到的母语进行对话、爬上一个不熟悉的攀爬架、看懂一部新卡通的情节或口头掌握一个新卡片游戏的规则,而不需要进行成千上万次的尝试。人类孩童在不断地进修新事物,而且通常是从少量的数据中进修。在人工智能的世界里,不任何东西可以与之相比。

他在帖子里加一个「probably」,就好像我们认为,在人工智能的世界里,人类通用智能存在一个有潜力的竞争对手。事实上并不。这就好像我说「塞雷娜 · 威廉姆斯大概(could probably)会打败我」一样。

与此同时,Yann LeCun 发布了一系列令人费解的推文,声称他发明的 ConvNet(或其他什么东西)可以处理几乎所有题目,这不是真的,而且从表面上看与他自己几周前告诉 ZDNet 的相矛盾。但是等等,还有更糟的。LeCun 继续写了下面的话,这真的让我摸不着头脑:

图片

无论你是想巩固人力还是代替人力,在 AI 领域取得进展所要处理的题目都是「完全」相同的。

我不同意他的看法。巩固人的能力要简单得多,因为你不需要把整个题目都处理掉。计算器可以巩固会计的能力,但它不晓得哪些钱是可扣除的,也不晓得税法中哪里大概存在漏洞。我们晓得如何建造能做数学运算的机械(巩固),但不晓得如何制造能够浏览税法代码的机械(代替)。

我们再来看看放射学:

图片

放射科医师的工作不仅包括浏览图像(卷积网络适用),而且(在某些情况下)包括推理患者的病史以及浏览非结构化文本,这两个题目卷积网络就不太适用了。

医疗 AI 领域以压倒性多数和一致的方式支持我的论点:

图片

说得对!我们会浏览临床记录、查看 lab value、与转诊大夫交流,然后在这些附加信息的背景下查看成像结果。

图片

经过一番思考,我们认为 LeCun 的说法不正确。我们在医学上建立辅助系统的原因是我们还无法处理诊断任务。我们只擅长非常简单的高通量任务,而这些任务对放射科大夫来说真的很容易。

图片

我的收件箱里全都是争论「AI 是否可以代替放射科大夫?还是只能看扫描结果」的内容,然而 AI 甚至还不能很好地看懂影像……

图片

我已经在医学成像中用了五年的深度进修。我自己的公开展望是:有朝一日,人工智能将完全代替放射科大夫。但是在此之前,我们将先实现移民火星的梦想。

人工智能可以处理放射学某些方面的题目,但这并不意味着它可以处理所有方面的任何题目。

正如 Una Health 联合创始人兼首席医疗官 Matthew Fenech 所说:「主张在一段不长的时间里代替放射科大夫是从根本上误解了他们的角色。

图片

但这些只是即兴的推文。也许我们可以原谅他们仓促的表达。但更令我惊讶的是,《自然》杂志的一篇关于语言神经科学的文章中出现了大量有利于深度进修的统计错误。

这篇文章(《Deep language algorithms predict semantic comprehension from brain activity(深度语言算法通过大脑活动展望语义理解)》)由一些 MetaAI 的研究人员撰写:

图片

表面上看,这个结果对于深度进修爱好者来说是个好消息,揭示了深度进修和人脑之间的相关性。该研究的主要作者在推特上的同一系列帖子中声称,GPT-2 的「内部工作」与人类大脑之间存在「直接联系」:

图片

但细节很重要;我们看到的只是一种相关性,观察到的相关性是良好的,但不是决定性的,R = 0.50。

这足够发表文章了,但也意味着还有很多未知的地方。当两个变量像这般相关时,并不意味着 A 导致 B(反之亦然)。这甚至不意味着他们步调一致。它类似于身高和体重之间的相关性的大小:如果我只晓得你的身高,而对你一无所知,我可以对你的体重做出一个稍微有根据的猜测——大概很接近,但也大概相去甚远,这些都是无法保证的。

这篇论文本身处理了这个题目,但是当它这样做时,它犯了一个大错,再次将太多结果归因于深度进修。他们是这样说的:(了解自己统计数据的人大概会立即发现错误)。

图片

正如 Stats 101 告诉我们的,所解释的变化量不是 R,而是 R 的平方。因此,如果你有 R = 0.5 的相关性,实际上「解释」的(实际上只是「展望」)只有 25 % 的方差——这意味着四分之三(而不是一半)的可变性仍未得到解释。这是一个巨大的差异。(在一则私信中,我向作者 King 指出了错误,他和我意见一致,并承诺他会联系期刊进行更正。)

展望仅 25% 的方差意味着允许进行「推测」,但这肯定不意味着你已经确定了答案。最后,我们真正拥有的证据只是表明,对 GPT 很重要的东西对大脑也很重要(例如频率和复杂性)。但我们还不能说,两个弱相关的东西实际上在以相同的方式运作。

现在事情就是这样。但《自然》杂志的同行评审并不注意到这个点,这让我感到震惊。它告诉我的是人们喜欢这个故事,却并不仔细浏览。(仔细浏览是同行评审员的首要工作。)

当审稿人喜欢这个故事但不批判性地浏览时,这表明他们是用心投票,而不是用大脑投票。

原文链接:https://garymarcus.substack.com/p/too-much-benefit-of-the-doubt?utm_source=twitter&sd=pf

原创文章,作者:机器之心,如若转载,请注明出处:https://www.iaiol.com/news/garymarcus-you-lai-zheng-dun-ai-quan-lecun-bu-ke-xin-nature/

(0)
上一篇 2022年 10月 16日 下午12:36
下一篇 2022年 10月 21日 下午2:33

相关推荐

  • 崭新x86内核架构、XeSS神经网络超采样、千亿晶体管SoC,这次英特尔诚意满满

    2021 年英特尔架构日上,英特尔发布一系列重大技术架构的改变和创新:两款崭新的 x86 内核架构(能效核与机能核)、代号为 Alder Lake 的首个机能混合架构、英特尔硬件线程调剂器、专为数据中心设计的下一代英特尔至强可扩大处理器 Sapphire Rapids 以及基础设施处理器(IPU)等内容。

    2021年 8月 20日
  • AI芯片业的挑战亦是企业智能化转型的降本增效机会

    「机器之心2021-2022年度AI趋势大咖说」聚焦「驱动未来的AI技能」与「重塑产业的AI科技」,推出线上分享,共邀请近40位AI领域知名学者、产业专家及企业高管通过主题分享及多人圆桌等形式,与行业精英、读者、观众共同回顾 2021年中的重要技能和学术热点,盘点AI产业的年度研究方向以及重大科技突破,展望2022年度AI技能发展方向、AI技能与产业科技融合趋势。

    2022年 7月 26日
  • 为什么要纯C言语手搓GPT-2,Karpathy回应网友质疑

    Karpathy:for fun.几天前,前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上完成 GPT-2 训练的项目「llm.c」。llm.c 旨在让大模型(LM)训练变得简单 —— 使用纯 C 言语 / CUDA,不需求 245MB 的 PyTorch 或 107MB 的 cPython。例如,训练 GPT-2(CPU、fp32)仅需求单个文献中的大约 1000 行干净代码(clean

    2024年 4月 11日
  • 27亿参数的「野生版」GPT-3开源,GitHub项目2.9K Star量

    OpenAI 著名的说话模型 GPT-3 可以懂数学、翻译文字,还能写论文拿到及格成绩,这样的 AI 什么时候才能开源呢?现在已有了一个差不多的项目。

    2021年 3月 26日
  • 94岁诺奖得主希格斯去世,曾预言「上帝粒子」的存留

    一名用诗意的语言揭示宇宙秘密的人。一名 94 岁平凡科学家的逝世,引发了人们广泛的哀思。4 月 10 日消息,诺贝尔物理学奖得主、著名物理学家彼得・希格斯(Peter Higgs)于周一去世,享年 94 岁。希格斯因提出希格斯玻色子也被称为「上帝粒子」而闻名。根据爱丁堡大学的一份声明我们得知(彼得・希格斯是该校的名誉退休熏陶),希格斯经历短暂的生病后,于 4 月 8 日星期一在家中安静的离开。对于老爷子的去世,爱丁堡大黉舍长 Peter Mathieson 沉重的表示:「彼得・希格斯是一名杰出的科学家 &mdash

    2024年 4月 10日
  • Creator 面对面 | 昇腾异构盘算架构 CANN 的技巧进展和未来展望

    在 2021 年的最后一个季度, CANN 5.0 版本正式发布。昇腾 CANN 作为平台级的异构盘算架构,已经经过了 3 年多的优化,迭代了 4 个大版本,CANN 5.0 在性能方面,AI 模型训练/推理性能大幅提升,用时更短;在功能方面:推理引擎 ATC Suite1.0 首次发布,AI 模型推理性能更高、功能更全面;在便捷性方面:代码开发和调试进一步简化,包括支持混合编程等,使用门槛更低。在性能上,无论是训练规模大小、场景类型,还是推理效率,均有较大提升。实验数据显示,原本需要 6.25 分训练的 BERT 模型,在 CANN 5.0 的加持下缩短了一倍多,只需2.69分钟就能完成训练;至于在 3.0 版本上需要 28 秒训练的 ResNet ,5.0 版本则是“再进化”到 16 秒。

    2022年 7月 15日
  • 古代首次打败特斯拉,成韩国消费者最中意的EV品牌

    2021韩国电动汽车博览会(xEV TRENDKOREA 2021)从上月19日至本月14日面向1467名民众,实施电动汽车采办喜好观察,于28日发布结果显示,古代力压特斯拉,成为韩国消费者最偏好的电动汽车品牌,古代击败特斯拉是该观察自2018年起开始实施后的首次。 观察还显示,87%的受访者称未来5年内有采办电动汽车的理想,较去年增长了23%。近年电动汽车品牌趋于多样化,消费者对于电动汽车的关注度和采办理想也大幅上升。消费者采办电动汽车时最注重最大续航里程、充电站设施、价格、购车贴补等。受访者认为电动汽

    2021年 5月 28日
  • 《语音识别基础:(一)语音是什么》

    从最起初的一声巨响,到梵音天籁,到耳旁的窃窃私语,到妈妈喊我回家吃饭,总离不开声响。声响是这个世界存在并运动着的证据。

    2021年 7月 29日
  • AAAI 2021线上分享 | 加强进修与3D视觉结合新突破,国防科大实现高效能无序夹杂码垛呆板人

    ​在物流仓储场景中,无序夹杂纸箱码垛呆板人有着大量的应用需求。对于乱序到来的、多种尺寸规格的箱子,如何用呆板人实现自动、高效的码垛,节省人力的同时提升物流周转效率,是物流仓储自动化的一个难点成绩。其核心是求解装箱成绩(Bin Packing Problem, BPP)这一经典的 NP 难题,求解 BPP 成绩的传统办法大多是鉴于启发式规则的搜索。

    2021年 1月 15日

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注