AI在线 AI在线

Anthropic联创:Scaling Law没崩,但推理成天价!有了TTT,25年AI更加速

Scaling Law要撞墙了? Anthropic联创Jack Clark反驳了这一说法:绝非如此! 在他看来,目前的AI发展还远远没到极限,「所有告诉你AI进展正在放缓,或者Scaling Law正在撞墙的人,都是错误的。

Scaling Law要撞墙了?

Anthropic联创Jack Clark反驳了这一说法:绝非如此!

在他看来,目前的AI发展还远远没到极限,「所有告诉你AI进展正在放缓,或者Scaling Law正在撞墙的人,都是错误的。」

图片

o3仍有很大的增长空间,但采用了不同的方法。

OpenAI的技术秘诀并不是让模型变得更大,而是让它们在运行时,使用强化学习和额外的计算能力。

这种「大声思考」的能力,为Scaling开辟了全新的可能性。

而Jack Clark预计,这一趋势在2025年还会加速,届时,科技公司都会开始将大模型的传统方法跟在训练和推理时使用计算的新方法相结合。

这个论断,跟OpenAI首次推出o系列模型时的说法完全吻合了。

在同一时间,MIT的研究者也发现,采用测试时训练(TTT)技术,能显著提高LLM进行逻辑推理和解决问题的能力。

图片

论文地址:https://ekinakyurek.github.io/papers/ttt.pdf

Scaling Law撞墙,绝对错了

在他的新闻通讯《Import AI》中,Clark对关于AI发展已到达瓶颈的观点进行了反驳。

图片

博文地址:https://jack-clark.net/

比如OpenAI的o3模型,就证明了AI极大的发展空间。

在现有强大基础模型之上,采用一种新方法——让大语言模型在推理时「边思考边执行」,即测试时计算(test-time compute)。这种方式能带来巨大的回报。

因此Clark预计,下一个合理的发展方向将是同时扩展强化学习(RL)和底层基础模型,这将带来更为显著的性能提升。

这意味着,随着现有方法(大模型scaling)与新方法(强化学习驱动的测试时计算等)的结合,2025年的AI进展相对2024年会进一步加速。

OpenAI著名研究员Jason Wei也表示,更加关键的是,从o1到o3的进步也仅仅只用了3个月,这说明了在推动人工智能领域发展方面来讲,强化学习驱动的推理扩展计算范式,会比预训练基础模型的传统扩展范式快得多。

图片

这并非空谈,Clark列举了不少o3的亮眼成绩来证明他的观点。

首先,o3有效突破了「GPQA」科学理解基准(88%),这彰显了它在科学领域进行常识推理和解答的能力。

它在「ARC-AGI」这一任务上的表现优于亚马逊众包平台(MTurk)雇佣的人类工作者。

甚至,o3在FrontierMath上达到了25%的成绩——这是一个由菲尔兹奖得主设计的数学测试,就在几个月前,SOTA的成绩仅为2%。

并且,在Codeforces上,o3获得了2727分,排名第175。这让它成为这一极其困难基准上的最佳竞技程序员之一。

模型成本将更难预测

Clark认为,大多数人还没有意识到未来进展的速度将会有多快。

「我认为,基本上没有人预见到——从现在开始,AI进展将会有多么急剧。」

同时,他也指出,算力成本是急速进展中的一个主要挑战。

o3之所以如此优秀,其中的一个原因是,它在推理时的运行成本更高。

o3的最先进版本需要的算力比基础版多170倍,而基础版的算力需求已经超出了o1的需求,而o1本身所需的算力又超过了GPT-4。

图片

o系列模型的性能与成本

Clark解释说,这些基于推理扩展范式的新模型使得成本预测变得更加困难。

过去,模型的成本费用是很直观的,主要取决于模型的大小和输出长度。

但在o3这类模型中,由于其资源需求会根据具体任务的不同而变化,所以也更难直观地给出模型执行任务时的花费。

o3推理成本达新高

除了FrontierMath和Codeforces上的成绩,o3在GPT Diamond Benchmar上,对于博士级的科学问题也拿到了87.7%,远高于各自领域博士专家70%的平均分。

图片

ARC-AGI基准测试开发者、Keras之父François Chollet,将o3的性能称为「AI能力中令人惊讶且重要的阶跃函数增长」

而这背后付出的代价,就是运行o3极高的成本。

之所以会造成如此高的成本,就是源于o3和其他模型处理问题方式的不同。

传统的LLM主要依靠的是检索存储模式,但o3处理问题时,却是靠实时创建新程序,来解决不熟悉的挑战。

Chollet表示,o3系统的工作原理,似乎和谷歌DeepMind的AlphaZero国际象棋程序类似。后者会有条不紊地搜索可能的解决方案,直到找到正确方法。

图片

这个过程也就解释了,为什么o3需要如此多的算力——只为单个任务,模型就需要处理多达3300万个token。

跟当前的AI系统相比,这种密集的token处理成本,简直是天价!

高强度推理版本的每个任务,运行费用约为20美元。

也就是说,100个测试任务的成本为2012美元,全套400个公共任务的成本则达到了6677美元(按平均每个任务花费17美元计算)。

而对于低强度推理版本,OpenAI尚未透露确切的成本,但测试显示,此模型可以处理33至1.11亿个token,每个任务需要约1.3分钟的计算时间。

图片

o3在ARC-AGI基准测试中必须解决的视觉逻辑问题示例

等待Anthropic的下一步

所以,Anthropic下一步会给我们带来什么呢?

目前,由于Anthropic尚未发布推理模型(reasoning model)或测试时模型(test-time model),来与OpenAI的o系列或Google的Gemini Flash Thinking竞争,Clark的这一番预测,不禁让人好奇Anthropic的计划。

他们之前宣布的Opus 3.5旗舰模型至今仍没有确切消息。

开发周期长达一个月,过程充满不确定性

在11月,Anthropic CEO Dario Amodei曾证实,公司正在开发Claude Opus的新版本。

起初,Opus 3.5定于今年发布,但后来Amodei再提到它时,只是说它会在「某个时刻」到来。

不过Amodei倒是透露,公司最近更新和发布的Haiku 3.5,性能已经跟原始的Opus 3相匹敌,同时运行速度还更快,成本也更低。

图片

其实,这也不仅仅是Anthropic面临的问题。

自GPT-4亮相以来,LLM的功能并没有取得重大飞跃,这种停滞已经成为AI行业内一种普遍的广泛趋势。

更多时候,新发布的模型只是微小的进步,跟之前有一些细微的差别。

开发更先进的LLM,为何如此复杂

在Lex Fridman的播客访问中,Amodei详细讲述了开发这些AI模型的复杂性。

图片

他表示,仅训练阶段,就有可能会拖延数个月,还会需要大量的计算能力,用上数以万计的专用芯片,如GPU或TPU。

预训练过后,模型将经历复杂的微调的过程,一个关键部分就是RLHF。

人类专家会煞费苦心地审查模型的输出,根据不同标准对其进行评分,帮助模型学习和改进。

接下来,就是一系列内部测试和外部审计,来检查模型的安全问题,通常是与美国和英国的AI安全组织合作。

总之,Amodei总结道:虽然AI的突破在圈外人士看来,像一个巨大的科学飞跃,但其实很多进步都可以归结为枯燥和无聊的技术细节。

在此过程中,最困难的部分通常是软件开发、让模型运行得更快,而不是重大的概念进步。

而且,每个新版本模型的「智能」和「个性」,也都会发生不可预测的变化。在他看来,正确训练模型与其说是一门科学,不如说是一门艺术。

即使真正发布的Opus 3.5的性能有了提升,却也不足以证明其高昂的运营成本是合理的。

不过,虽然有人认为Anthropic没有紧跟推理模型的步伐,已经足以反映LLM扩展的巨大挑战;但不得不说,Opus 3.5也并非毫无意义。

显然,它帮助训练了全新的Sonnet 3.5,它已经成为了当今市场上最受欢迎的LLM。

相关资讯

一半功耗,六倍算力提升:墨芯联手浪潮开拓稀疏化计算生态

机器之心发布机器之心编辑部6 月 13 日,墨芯人工智能与浪潮签订元脑战略合作协议。这是在浪潮战略投资墨芯之后,双方的进一步战略合作。墨芯将携手浪潮信息,以领先的稀疏化计算技术和产品,广阔的生态潜能,融合资源与算法,共创全栈 AI 解决方案,为各行各业 AI 应用提供强大算力引擎和生态支撑,为企业降本增效,并加速产业的人工智能化进程。AI 计算的新锐势力——稀疏化计算墨芯人工智能科技创立于 2018 年,总部位于深圳,致力于通过稀疏化算法构建高性能低 TCO(总拥有成本)的 AI 算力,其产品主要是用于云端和终端的
6/13/2022 4:04:00 PM
机器之心

500万奖金,代码可上太空!华为开发者大赛启动

2022华为开发者大赛将于6月15日启动,大赛分为云底座和产业两大赛道,包含云应用创新、代码上太空、世界难题、无人车等7大赛事,总奖金额将达500万。其中,华为云联合北京邮电大学等合作单位共同发起“代码上卫星”活动,面向广大开发者征集能适用于卫星的创新应用,入选作品将有机会通过华为云和北邮联合设计的全球首个“云原生卫星计算平台”部署到“天算星座”计划的多颗卫星中,实现“星海畅游”。“代码上太空”旨在鼓励广大开发者充分运用华为云云原生、边缘云、AI、大数据等技术,结合云原生卫星计算平台,创造性开发,加速卫星计算智能化
6/13/2022 4:15:00 PM
新闻助手

墨芯首席科学家严恩勖:用稀疏化解决时代最严峻的算力挑战

人工智能进入黄金时代,正改变各行各业以及我们的日常生活。今日集微网报道,随着人工智能应用的普及,稀疏化进入人工智能行业的主流企业视野。稀疏化计算能帮助人工智能突破硬件算力极限,有望实现十倍、甚至百倍的人工智能应用加速,并大幅降低计算成本。墨芯人工智能从诞生起,即专注于稀疏化计算产品和解决方案,独创双稀疏算法,为客户提供高品质AI计算解决方案,携手共创AI计算未来。为此,墨芯人工智能首席科学家严恩勖针对企业目前的发展历程、研究成果、企业优势、未来发展等,与集微网分享了他的看法和观点。以下为访谈内容:集微网:在AI报告
7/12/2022 1:41:00 PM
墨芯人工智能
  • 1