AI在线 AI在线

英伟达发布 Llama-3.1-Nemotron-Ultra-253B-v1 模型,推动 AI 高效部署

英伟达发布 Llama-3.1-Nemotron-Ultra-253B-v1,这款 2530 亿参数的大型语言模型在推理能力、架构效率和生产准备度上实现重大突破。

科技媒体 marktechpost 昨日(4 月 11 日)发布博文,报道称英伟达发布 Llama-3.1-Nemotron-Ultra-253B-v1,这款 2530 亿参数的大型语言模型在推理能力、架构效率和生产准备度上实现重大突破。

英伟达发布 Llama-3.1-Nemotron-Ultra-253B-v1 模型,推动 AI 高效部署

随着 AI 在数字基础设施中的普及,企业与开发者需在计算成本、性能与扩展性间寻找平衡。大型语言模型(LLM)的快速发展提升了自然语言理解和对话能力,但其庞大规模常导致效率低下,限制大规模部署。

英伟达最新发布的 Llama-3.1-Nemotron-Ultra-253B-v1(简称 Nemotron Ultra)直面这一挑战,该模型基于 Meta 的 Llama-3.1-405B-Instruct 架构,专为商业和企业需求设计,支持从工具使用到多轮复杂指令执行等任务。

AI在线援引博文介绍,Nemotron Ultra 采用仅解码器的密集 Transformer 结构,通过神经架构搜索(NAS)算法优化,其创新之处在于采用跳跃注意力机制,在部分层中省略注意力模块或替换为简单线性层。

英伟达发布 Llama-3.1-Nemotron-Ultra-253B-v1 模型,推动 AI 高效部署

此外,前馈网络(FFN)融合技术将多层 FFN 合并为更宽但更少的层,大幅缩短推理时间,同时保持性能。模型支持 128K token 的上下文窗口,可处理长篇文本,适合高级 RAG 系统和多文档分析。

在部署效率上,Nemotron Ultra 也实现突破。它能在单 8xH100 节点上运行推理,显著降低数据中心成本,提升企业开发者的可及性。

英伟达发布 Llama-3.1-Nemotron-Ultra-253B-v1 模型,推动 AI 高效部署

英伟达通过多阶段后训练进一步优化模型,包括在代码生成、数学、对话和工具调用等任务上的监督微调,以及使用群体相对策略优化(GRPO)算法进行强化学习(RL)。这些步骤确保模型在基准测试中表现出色,并与人类交互偏好高度契合。

相关资讯

消息称 DeepSeek-R2 AI 模型开发进程因美国当局英伟达 H20 芯片出口限制而延迟

由于美国当局对英伟达H20芯片的出口限制,DeepSeek R2 AI模型的开发进程被迫延迟。这不仅影响了新模型的研发,也对现有R1模型的实际部署造成困扰。#AI芯片# #DeepSeek#
6/27/2025 8:09:47 AM
漾仔

Mistral AI 在欧洲推出 Mistral Compute 云平台,进军基础设施市场

Mistral AI 宣布推出 Mistral Compute AI 云平台,正式进军 AI 基础设施市场,与微软 Azure、亚马逊 AWS 等竞争。平台基于英伟达 GPU 和 Mistral 自家训练工具包,提供从裸机到全托管 PaaS 的解决方案。目前服务覆盖欧洲,未来将扩展至中东、亚洲等地。#AI云平台# #MistralAI#
6/14/2025 3:34:10 PM
漾仔

突发!英伟达收购贾扬清新创业的Lepton AI

出品 | 51CTO技术栈(微信号:blog51cto)刚刚,有外媒曝出英伟达即将收购成立两年的 AI 创业公司 Lepton AI。 Lepton AI 的创始人是AI圈内知名人士贾扬清。 据悉这笔收购交易的金额是数亿美元。
3/27/2025 8:50:38 AM
  • 1