Scaling Law

谁说Scaling Law到头了？新研究：每一步的微小提升会带来指数级增长

很多人认为，Scaling Law 正在面临收益递减，因此继续扩大计算规模训练模型的做法正在被质疑。最近的观察给出了不一样的结论。研究发现，哪怕模型在「单步任务」上的准确率提升越来越慢，这些小小的进步叠加起来，也能让模型完成的任务长度实现「指数级增长」，而这一点可能在现实中更有经济价值。

9/16/2025 1:24:00 PM

机器之心

原来Scaling Law还能被优化？Meta这招省token又提效

2017 年，一篇《Attention Is All You Need》论文成为 AI 发展的一个重要分水岭，其中提出的 Transformer 依然是现今主流语言模型的基础范式。尤其是在基于 Transformer 的语言模型的 Scaling Law 得到实验验证后，AI 领域的发展更是进入了快车道。现如今，这篇论文的引用量正向 19 万冲刺，而 Transformer 和注意力机制本身也已经历了很多改进和创新，比如我们前段时间报道过的「Multi-Token Attention」和「Multi-matrix Factorization Attention」等。

7/6/2025 9:38:00 PM

机器之心

千寻智能解浚源：具身智能的 Scaling Law 已跨过起跑线丨具身先锋十人谈

作者 | 赖文昕编辑 | 陈彩娴不久前，首届“人形机器人半程马拉松”在北京亦庄举办，为本就热度满满的具身智能行业再添了一把火。一共 20 支队伍组成的“钢铁生命竞赛”，让此前集中在实验室 demo 阶段的人形机器人们，跑到真实场景中接受试炼，最终共有 6 支队伍完赛，完赛率为 30%。质疑随着掌声纷杳而至：具身智能真的不是泡沫吗？

4/29/2025 4:26:00 PM

赖文昕

万字长文解读Scaling Law的一切，洞见LLM的未来

Scaling Law 撞墙了吗？这算得上是近段时间 AI 领域最热门的话题之一。近日，资深机器学习研究科学家 Cameron R.

2/1/2025 7:58:00 PM

机器之心

谁说撞墙了？展望2025 Scaling law新叙事加速AI变革

今日，达摩院首席科学家赵德丽发表文章《2025 AI展望：Scaling Law新叙事加速AI变革》，对当前 AI 的发展逻辑进行梳理，同时也展望了 2025 年的 AI 趋势。本文是对赵德丽老师文章的全文刊载。我们正身处一场技术革命的历史开端，以 ChatGPT 为标志的这轮 AI 科技浪潮是算法和软件诞生以来人类科技最重要的技术变革，由此开启了以智能为核心的第四次工业革命。

1/20/2025 7:42:00 PM

机器之心

LLM最大能力密度100天翻一倍！清华刘知远团队提出Densing Law

支持大模型一路狂飙的 Scaling Law 到头了？近期，AI 圈针对 Scaling Law 是否到头产生了分歧。一派观点认为 Scaling Law 已经「撞墙」了，另一派观点（如 OpenAI CEO Sam Altman）仍然坚定 Scaling Law 的潜力尚未穷尽。

12/9/2024 2:28:00 PM

机器之心

Scaling Law 撞墙？复旦团队大模型推理新思路：Two-Player架构打破自我反思瓶颈

在 AI 领域，近期的新闻焦点无疑是关于「Scaling Law 是否撞墙？」的辩论。这一曾经被视作大模型发展的第一性原理，如今却遭遇了挑战。在这样的背景下，研究人员开始意识到，与其单纯堆砌更多的训练算力和数据资源，不如让模型「花更多时间思考」。以 OpenAI 推出的 o1 模型为例，通过增加推理时间，这种方法让模型能够进行反思、批评、回溯和纠正，大幅提升了推理表现

11/27/2024 6:10:00 PM

机器之心

撞墙还是新起点？自回归模型在图像领域展现出Scaling潜力

自回归方法，在图像生成中观察到了 Scaling Law。「Scaling Law 撞墙了？」这恐怕是 AI 社区最近讨论热度最高的话题。

11/26/2024 1:13:00 PM

机器之心

Scaling Laws终结，量化无用，AI大佬都在审视这篇论文

研究表明，你训练的 token 越多，你需要的精度就越高。最近几天，AI 社区都在讨论同一篇论文。 UCSD 助理教授 Dan Fu 说它指明了大模型量化的方向。

11/13/2024 2:36:00 PM

机器之心

连OpenAI都推不动Scaling Law了？MIT把「测试时训练」系统研究了一遍，发现还有路

昨天，The Information 的一篇文章让 AI 社区炸了锅。这篇文章透露，OpenAI 下一代旗舰模型的质量提升幅度不及前两款旗舰模型之间的质量提升，因为高质量文本和其他数据的供应量正在减少，原本的 Scaling Law（用更多的数据训练更大的模型）可能无以为继。此外，OpenAI 研究者 Noam Brown 指出，更先进的模型可能在经济上也不具有可行性，因为花费数千亿甚至数万亿美元训练出的模型会很难盈利。

11/12/2024 1:15:00 PM

机器之心

价值万亿的具身智能市场，大佬们如何从世界模型下刀？

具身智能，简单来说，就是赋予 AI 一个「身体」，让这颗聪明的大脑在物理世界中行动自如。把这颗大脑升级成世界模型 —— 它拥有记忆、直觉和常识时，机器人可以不再机械地按训练行事，而是能够灵活变通，具体问题具体分析。于是，在这两个火热的概念齐头并进之时，这样的展示层出不穷，机器人为你扫地、喂猫、铺床、做饭，以后养老不用愁，放心交给机器人就好了。

11/7/2024 2:20:00 PM

机器之心

NeurIPS 2024 | 大模型的词表大小，同样适用于Scaling Law

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

10/11/2024 1:12:00 PM

机器之心

张俊林：OpenAI o1的价值意义及强化学习的Scaling Law

蹭下热度谈谈 OpenAI o1 的价值意义及 RL 的 Scaling law。一、OpenAI o1 是大模型的巨大进步我觉得 OpenAI o1 是自 GPT 4 发布以来，基座大模型最大的进展，逻辑推理能力提升的效果和方法比预想的要好，GPT 4o 和 o1 是发展大模型不同的方向，但是 o1 这个方向更根本，重要性也比 GPT 4o 这种方向要重要得多，原因下面会分析。为什么说 o1 比 4o 方向重要？这是两种不同的大模型发展思路，说实话在看到 GPT 4o 发布的时候我是有些失望的，我当时以为 Op

9/14/2024 1:30:00 PM

机器之心

电力、芯片制造、数据和延迟成四大限制因素，Scaling Law能续到2030年吗？

近年来，人工智能模型的能力显著提高。其中，计算资源的增长占了人工智能性能提升的很大一部分。规模化带来的持续且可预测的提升促使人工智能实验室积极扩大训练规模，训练计算以每年约 4 倍的速度增长。从这个角度来看，人工智能训练计算的增长速度甚至超过了近代史上一些最快的技术扩张。它超过了移动电话采用率（1980-1987 年，每年 2 倍）、太阳能装机容量（2001-2010 年，每年 1.5 倍）和人类基因组测序（2008-2015 年，每年 3.3 倍）的峰值增长率。在最近的一份报告中，Epoch AI 研究了当前人工

9/14/2024 1:22:00 PM

机器之心

港大马毅：现在的大模型只有「知识」，没有「智能」

导语：知识与智能是两个概念。访谈 | 陈彩娴撰文丨马蕊蕾编辑丨陈彩娴当多数人将 Scaling Law（规模定律）作为信仰并投身其中时，马毅却选择了一条少有人走的路。「模型无所谓大小，我们说正确的模型，主要看机制是否正确，这才是智能的本质。

7/9/2024 3:31:00 PM

马蕊蕾

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

一般而言，训练神经网络耗费的计算量越大，其性能就越好。在扩大计算规模时，必须要做个决定：是增多模型参数量还是提升数据集大小 —— 必须在固定的计算预算下权衡此两项因素。Scaling law 告诉我们：只要能适当地分配参数和数据，就能在固定计算预算下实现性能最大化。之前已有不少研究探索过神经语言模型的 Scaling law，而这些研究通常得出的结论是参数和训练 token 数应当一比一地扩展。但是，之前的语言模型 Scaling law 研究都是基于在散乱的网络文本上训练的 Transformer 得到的。这是一

6/3/2024 3:37:00 PM

机器之心

人大 Sora 思辩：Sora 到底懂不懂物理世界？

Sora 发布至今，虽然仍未正式对外开放，但对其技术细节、切实影响的讨论从未停歇。讨论的背后，是为了探索人工智能的更本质问题。对旧有视觉生成思路的检验和校正，是 Sora 带来的直观影响。

3/23/2024 6:39:00 PM

王悦

大模型Scaling Law同样适用于下游任务性能？斯坦福、谷歌最新研究揭秘

大模型的成功很大程度上要归因于 Scaling Law 的存在，这一定律量化了模型性能与训练数据规模、模型架构等设计要素之间的关系，为模型开发、资源分配和选择合适的训练数据提供了宝贵的指导。以往的大量研究集中于上游复杂度或交叉熵损失的 Scaling law（即在预训练数据上进行评估），但在实际应用中，模型通常要经历一个迁移学习的过程：首先在无监督数据上进行预训练，然后针对特定的下游任务（如编码或翻译）进行微调。那么，Scaling Law 能不能用于预测下游任务性能？这个关键问题很大程度上仍未得到解答。在最近的一

2/27/2024 2:41:00 PM

机器之心

资讯热榜

免费！让图片放大不失真的位图转矢量图神器 Tmttool AI应用新纪元：2025中国AI应用排行榜榜单揭晓丨2025年1月 GGUF 是什么？一文看懂大模型里最火的模型格式 Sora、可灵、即梦哪家强？AI视频软件深度测评！免注册免费用！17种AI绘图模型一站式体验平台LMArena 可灵、即梦、海螺、Vidu哪家强？4大AI视频神器深度测评深度拆解！这可能是全网最详细的AI视频创作教程后悔没早发现！教你用谷歌Gemini生成精美PPT（附提示词）

标签云

AI 人工智能 OpenAI AIGC 模型 ChatGPT 谷歌 DeepSeek AI绘画大模型机器人数据 AI新词 Midjourney 开源 Meta 微软智能用户 GPT 学习智能体技术 Gemini 马斯克英伟达 Anthropic 图像 AI创作训练 LLM 论文代码算法苹果 AI for Science Agent Claude 腾讯芯片 Stable Diffusion 蛋白质具身智能开发者 xAI 生成式神经网络机器学习人形机器人 3D AI视频 RAG 大语言模型 Sora 研究百度生成 GPU 工具华为字节跳动计算 AGI 大型语言模型 AI设计搜索生成式AI 视频生成 DeepMind AI模型特斯拉场景深度学习亚马逊架构 Transformer MCP Copilot 编程视觉