AI在线 AI在线

大模型训练“练兵千日”,别输在AI推理“用兵一时”

2025年被认为是AI智能体的元年,是AI走向大规模应用的开始。 随着AI应用爆发,算力的需求逻辑也正在被重塑:AI推理——而不是训练,将成为未来算力需求的核心增长点。 这种趋势在刚刚结束的2025年世界人工智能大会(WAIC)多有体现。

大模型训练“练兵千日”,别输在AI推理“用兵一时”

2025年被认为是AI智能体的元年,是AI走向大规模应用的开始。随着AI应用爆发,算力的需求逻辑也正在被重塑:AI推理——而不是训练,将成为未来算力需求的核心增长点。

这种趋势在刚刚结束的2025年世界人工智能大会(WAIC)多有体现。一方面,主流大模型玩家纷纷推动成熟产品“瘦身”,以轻量化模型适配更多终端设备。另一方面,多家AI Infra创企押注AI推理芯片,抢抓AI模型从实验室走向生产场景的红利。

中信建投在2025 WAIC期间发布的白皮书指出,随着AI算力消耗从训练向推理的结构性转变,国内算力消耗正快速增长(如字节跳动每三个月Token消耗接近翻一倍,5月底为16.4万亿Token),按此趋势主流云服务商将很快感受到算力紧张、出现算力缺口。

就在这个节骨眼上,中美AI推理体验的鸿沟已经显现。相比以美国为代表的领先国家,中国大模型的推理体验(包括时延、准确度、上下文推理等方面)已大幅落后;风靡一时的DeepSeek等国内开源大模型,活跃用户数遭遇了严重下滑。

如果说大模型训练是“练兵千日”,那么推理就是“用兵一时”。站在2025这个本该兑现AI商用价值的关键时刻,推理算力却成了新的“吞金兽”,不持续“堆芯片”用户体验就难以为继,这要求全球各国、各行各业都引起高度重视,找到推理体验与算力成本的平衡点。

尤其是对于高端算力芯片受限、软件及生态薄弱的中国AI产业来说,我们必须在“戴着镣铐跳舞”的现实中寻求新的突破、找到新的解法,别让中美AI竞争输在“最后一公里”!

Token经济时代:打不起的价格战,输不得的体验战

在AI商业化过程中,Token(词元)被迅速推至台前。它既是大模型训练及推理过程中处理的最小语义单元,也是最基础的计量计费单位,用于衡量AI产品服务使用量和商业化收费标准,因而AI时代也被称为Token经济时代。

类似于移动通信数据流量伴随3G-4G-5G升级而大幅提升,随着模型逐渐复杂化和业务场景不断丰富,用户的Token消耗量也在与日俱增。比如,智能体(Agent)执行一次任务平均消耗的Token已达到10万量级;海量用户汇聚使得单个头部大模型日均Token消耗量已达百亿级,推理成本持续攀升。

这种成本攀升折射到国内市场,可以发现去年打得火热的Token价格战到今年已经趋于冷静,主流大模型厂商已从单纯降价转向技术升级与场景优化结合(包括支持超长文本处理、多模态推理等差异化能力),避免沦为芯片厂商的“打工人”,甚至赔本赚吆喝。

即便如此,受限于高端芯片供给和资本开支差距,中国大模型的推理体验已经落后于美国领先大模型。资料显示,OpenAI O3 mini、Google Gemini等模型的单用户输出速度已进入200 Tokens/s区间(时延5ms),中国普遍小于60 Tokens/s(时延50~100ms)。比如OpenAI O3 mini每秒能输出的Token(214个)约为DeepSeek(21个)的10倍,用户会直接感受到OpenAI给出回答的时间要比DeepSeek快很多。

体验掉队的代价是巨大的。有数据显示,相比其他顶尖模型用户数持续增长,DeepSeek用户数自发布后绝对流量一直在下降,其使用率已从年初的50%暴跌至当前的3%左右,用户正在从DeepSeek流失转向其他模型应用。

一言以蔽之,不同于边际成本极低的互联网时代,算力成本高企(GPU价格昂贵且超负荷使用两三年就得换新)的Token经济时代,Token量越大越是打不起价格战,当然也输不得体验战。要在AI时代健康可持续发展,必须解决推理体验与算力成本平衡的难题。

“戴着镣铐跳舞”:GPU+HBM被锁死,软件生态也旁落

面对这一难题,在以美国为首的算力充沛国家,中高端GPU搭载HBM(高带宽内存)的产品形态已成为主流趋势。MLPerfTM基准测试显示,HBM可使推理速度提升30-60%;反之,HBM不足时,推理体验会明显下降,如出现任务卡顿、响应慢等问题。

背后的技术逻辑在于,AI推理需要频繁读取模型参数和输入数据,而HBM是解决“数据搬运”的关键。作为一种通过3D堆叠和超宽接口实现极高数据传输带宽的先进内存技术,HBM可显著提升内存与GPU、NPU等处理器之间传输数据的速度,确保计算核心以极高的速度获取所需的数据,从而最大限度利用AI加速器的强大算力,提高推理吞吐量。

然而,和中高端GPU一样,全球HBM市场也高度集中并掌握在国外头部厂商手里。它们与先进芯片一起被纳入美国“长臂管辖”的销售管制清单,中国厂商无法获取(特供版GPU和HBM能力都被严重“阉割”),导致中国大模型的推理体验提升受到极大制约,“钱花了还办不成事”。

更触目惊心的是,“戴着镣铐跳舞”(比如使用英伟达的低端H20产品)的中国模型服务商,正匍匐在一条将应用生态构筑在别人“地基”(比如英伟达CUDA)之上的老路。当英伟达通过“硬件迭代→软件优化→生态绑定”构建起推理时代的“铁三角”时,中国厂商连对方的低端产品也很难离开(调研显示从英伟达等生态迁移至国产平台需重构70%代码,成本相当于三个程序员年薪),完全陷入美国编织的AI秩序里。

这里面涉及的技术账、经济账、安全账都是十分沉重的,必须引起高度的重视!从技术效率上讲,低端技术长期看肯定打不过中高端技术,必然导致产品竞争力下降;从经济成本看,“质次价高”的特供芯片,绝非平衡推理体验与算力成本的优选方案;从供应链安全角度看,国产化迁移改造的历史进程,绝对容不得算力芯片漏洞后门的掣肘。

破局之道畅想:从单点突破到系统创新,重视软件及生态

何以破局?参照我国在AI训练阶段的突围之道(比如昇腾384超节点以集群方式突破性能极限),AI推理或许也可以从单点突破走向系统创新,重视软件能力并及早培育生态,弥补硬件物理层面的不足和限制,探寻一条可持续、可复制的最佳路径。

从技术层面看,AI推理的关键在于键值缓存(KV Cache),其好比一份“上下文备忘录”——缓存前面所有内容的关键信息(Key和Value),让AI生成下一个词时不用重复计算历史信息,从而大幅加速推理过程。但KV Cache需要占用GPU的显存(如HBM),生成的文本越长,缓存的数据量就越大,容易触发容量限制,导致推理时延增加、吞吐量下降。业界可以考虑通过硬件+软件系统创新的方式,将KV Cache缓存至存储层,以AI存储方案加速AI推理,减少对昂贵HBM的依赖。

从生态层面看,面对国产化改造和AI推理爆发的巨大机遇,业界龙头厂商、行业头部用户要站出来先行先试,验证技术方案,打造联盟生态,别让“楼房建起来了再去重构地基”,费时费力又费钱。特别是数字化程度高、数据密度大、AI应用场景丰富的金融、医疗、教育等行业,一定要从一开始便算好技术账、经济账和安全账,以生态之力护航AI转型行稳致远。

回顾过去,美国凭借龙头企业技术引领+产业生态深度协同的“组合拳”,统治了计算产业从专用计算到通用计算的大部分时期。就在7月下旬,美国又发布了《赢得AI竞赛:美国AI行动计划》,再次显露主导全球人工智能发展的野心。此时此刻,在AI大模型“练兵千日,用兵一时”的历史拐点,产业各界必须警觉起来,别让中美AI竞争输在“最后一公里”!

相关资讯

无服务器(Serverless)人工智能推理​

无服务器计算是一种云计算模式,云服务提供商(如AWS、Azure和GCP)管理服务器基础设施,并根据需要动态分配资源。 开发者可以直接调用API,或者以函数的形式编写代码,云服务商会根据特定事件触发这些函数。 这意味着开发者可以自动扩展应用程序,无需担心服务器管理和部署,从而节省成本并提高敏捷性。
2/7/2025 4:45:21 PM
刘睿暄

深度思考:现在的AI模型真的在进行推理吗?

最近,OpenAI、DeepSeek、谷歌、Anthropic都推出新模型,它们都宣称模型已经具备真正的推理能力,也就是人类解决问题时运用的思维方式,但问题在于:AI大模型所说的推理真的和人一样吗?  现在的模型可以将复杂问题分解成小问题,然后逐步解决小问题再给出回应,业界将这个过程称为“思维链推理”。 这些模型有时表现让人惊叹,可以解决逻辑谜题和数学难题,能够快速写出完美代码,但有时面对极为简单的问题却显得蠢笨。
2/27/2025 10:33:36 AM
小刀

DeepSeek、OpenAI、Kimi 视觉推理哪家强,港中文 MMLab 推出推理基准 MME-COT

OpenAI o1 和 DeepSeek-R1 靠链式思维(Chain-of-Thought, CoT)展示了超强的推理能力,但这一能力能多大程度地帮助视觉推理,又应该如何细粒度地评估视觉推理呢?
2/22/2025 5:57:19 PM
汪淼
  • 1