AI在线 AI在线

英伟达新GPU,超长上下文/视频生成专用

老黄对token密集型任务下手了。 刚刚,在AI Infra Summit上,英伟达宣布推出专为处理百万token级别的代码生成和生成式视频应用的全新GPU——NVIDIA Rubin CPX GPU。 老黄表示:Rubin CPX是首款为超大上下文AI量身定制的CUDA GPU,可以让模型“一口气”推理数百万token。

老黄对token密集型任务下手了。

刚刚,在AI Infra Summit上,英伟达宣布推出专为处理百万token级别的代码生成和生成式视频应用的全新GPU——

NVIDIA Rubin CPX GPU

英伟达新GPU,超长上下文/视频生成专用

老黄表示:Rubin CPX是首款为超大上下文AI量身定制的CUDA GPU,可以让模型“一口气”推理数百万token。

而且,RubinCPX还能让你越用越省钱:每投资1亿美元,就能获得50亿美元的token收益。(50倍,你就赚吧,老黄说的)

对于“老黄画的饼”,CursorRunwayMagic等行业大佬也表示RubinCPX将分别在代码生产力生成式影像创作、以及大模型自主代理上带来突破。

那么好了好了,这GPU到底什么来头?

首款专为超大上下文AI打造的CUDA GPU

Rubin CPX基于NVIDIA Rubin架构,采用单片设计,内置NVFP4计算资源,主打AI推理的高性能和高能效。

它的性能提升,主要体现在以下几个方面:

  • 在NVFP4精度下可提供高达30PFLOPS算力,做到性能与精度兼顾。
  • 配备128GB高性价比GDDR7内存,应对最苛刻的上下文工作负载。– 与NVIDIA GB300 NVL72系统相比,注意力机制处理速度提升3倍,让模型在处理更长上下文序列时也不掉速。

在这里,我们可以简单地拿A100来对比一下。

在算力方面,相较于A100的FP16精度,Rubin CPX专门优化过的NVFP4可以实现几个量级的性能提升。

而在内存方面,NVIDIA A100是40GB 或80GB,Rubin CPX则直接干到了128GB,让超大上下文处理毫无压力。

英伟达新GPU,超长上下文/视频生成专用

(注:在处理超大上下文任务时,GPU内存容量至关重要:模型需要一次性加载数百万token的权重、激活值和中间计算结果,如果内存不够,就只能分批处理,既影响速度,也限制模型规模)

单片就已经这么强,组合还可以让它更厉害!

英伟达表示,Rubin CPX还可以与NVIDIA Vera CPU和Rubin GPU协同工作,构成全新的NVIDIA Vera Rubin NVL144 CPX平台。

该平台在单机架内提供8EFLOPS的AI算力+100TB高速内存+每秒1.7PB的内存带宽,较NVIDIA GB300 NVL72系统的AI性能提升了7.5倍。

*(注:1EFLOPS = 1000PFLOPS )

还没完,在此基础上,NVIDIA Vera Rubin NVL144 CPX还可以接入Quantum‑X800 InfiniBand 或Spectrum‑X以太网平台,实现大规模多机互联计算,让性能再上一个台阶。

预计明年正式推出

就像前面提到的,NVIDIA Rubin CPX 在长上下文处理上实现了最高性能和最高token收益——远超现有系统的设计极限。

老黄表示,这将像RTX 革新了图形和物理AI一样,改变AI时代的上下文推理能力。

在实际应用中,它能把AI编程助手从简单的代码生成工具,升级为能够理解并优化大规模软件项目的复杂系统。

在视频处理方面,由于AI模型分析一小时内容就可能涉及上百万token,突破了传统GPU的算力极限。

为此,Rubin CPX将视频解码、编码和长上下文推理处理集成在单芯片中,为视频搜索和高质量生成式视频等长时格式应用提供前所未有的能力。

此外,Rubin CPX将得到NVIDIA完整AI软件栈支持,从加速基础设施到企业级软件一应俱全。

最后,NVIDIA Rubin CPX预计将于2026年底正式推出。

Token密集型任务就要不密集了(一年后版)

相关资讯

轨迹可控视频生成新范式,复旦微软破解视频生成难题,精准控制任意物体运动

轨迹可控的视频生成来了,支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。 近年来,视频生成技术快速发展,显著提升了视频的视觉质量与时间连贯性。 在此基础上,(trajectory-controllable video generation)涌现了许多工作,使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。
3/27/2025 9:24:16 AM
量子位

每秒生成超30帧视频,支持实时交互!自回归视频生成新框架刷新生成效率

在A100上用310M模型,实现每秒超30帧自回归视频生成,同时画面还保持高质量! 视频生成现在都快这个程度了? 最近,来自微软研究院的团队与北大联合发布新框架——Next-Frame Diffusion (NFD)。
6/12/2025 11:57:56 AM

CVPR2025视频生成统一评估架构,上交x斯坦福联合提出让MLLM像人类一样打分

视频生成技术正以前所未有的速度革新着当前的视觉内容创作方式,从电影制作到广告设计,从虚拟现实到社交媒体,高质量且符合人类期望的视频生成模型正变得越来越重要。 那么,要如何评估AI生成的视频是否符合人类的审美和需求呢? Video-Bench视频评估框架,能够通过模拟人类的认知过程,建立起连接文本指令与视觉内容的智能评估体系。
6/13/2025 9:10:00 AM
  • 1