AI在线 AI在线

大模型再现黑马!英伟达开源Llama-Nemotron系列模型,效果优于DeepSeek-R1

近日,英伟达推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型构建)—— 一个面向高效推理的大模型开放家族,具备卓越的推理能力、推理效率,并采用对企业友好的开放许可方式。 该系列包括三个模型规模:Nano(8B)、Super(49B)与 Ultra(253B),另有独立变体 UltraLong(8B,支持超长上下文)。 这些模型不仅具备超强的推理能力,还为企业使用提供开放许可。

近日,英伟达推出了 Llama-Nemotron 系列模型(基于 Meta AI 的 Llama 模型构建)—— 一个面向高效推理的大模型开放家族,具备卓越的推理能力、推理效率,并采用对企业友好的开放许可方式。

图片

该系列包括三个模型规模:Nano(8B)、Super(49B)与 Ultra(253B),另有独立变体 UltraLong(8B,支持超长上下文)。这些模型不仅具备超强的推理能力,还为企业使用提供开放许可。模型权重和部分训练数据在 Hugging Face 上公开,遵循 NVIDIA Open Model License 和 Llama 社区许可,可商业使用。

图片截至 2025 年 4 月,根据人工智能分析,我们的旗舰型号 LN-Ultra 是最“智能”的开放式型号。

相关链接

  • 论文:https://arxiv.org/pdf/2505.00949
  • 代码:https://github.com/NVIDIA/NeMo
  • 数据集:https://huggingface.co/datasets/nvidia/Llama-Nemotron-Post-Training-Dataset
  • 模型:https://huggingface.co/models?library=nemo&sort=downloads&search=nvidia

NeMo介绍

NVIDIA NeMo 框架是一个可扩展的云原生生成式 AI 框架,专为从事大型语言模型 (LLM)、多模态模型 (MM)、自动语音识别 (ASR)、文本转语音 (TTS) 和计算机视觉 (CV) 领域的研究人员和 PyTorch 开发者打造。它旨在帮助您利用现有代码和预训练的模型检查点,高效地创建、定制和部署新的生成式 AI 模型。

NeMo 2.0 的新功能

  • NVIDIA NeMo 2.0 与其前身 NeMo 1.0 相比引入了几项重大改进,增强了灵活性、性能和可扩展性。
  • 基于 Python 的配置- NeMo 2.0 从 YAML 文件转换为基于 Python 的配置,从而提供更高的灵活性和控制力。这种转变使得以编程方式扩展和自定义配置变得更加容易。
  • 模块化抽象——通过采用 PyTorch Lightning 的模块化抽象,NeMo 2.0 简化了适配和实验。这种模块化方法使开发人员能够更轻松地修改和实验其模型的不同组件。
  • 可扩展性——NeMo 2.0 使用NeMo-Run在数千个 GPU 上无缝扩展大规模实验,NeMo-Run 是一种强大的工具,旨在简化跨计算环境的机器学习实验的配置、执行和管理。

总的来说,这些增强功能使 NeMo 2.0 成为一个强大、可扩展且用户友好的 AI 模型开发框架。NeMo 2.0 目前由 LLM(大型语言模型)和 VLM(视觉语言模型)集合支持。

定性评估

LN-Ultra 在广泛的推理和非推理基准测试中,在开放模型中表现出色。LN-Ultra 在广泛的推理和非推理基准测试中,在开放模型中表现出色。图片

相关资讯

字节Seed首次开源代码模型,拿下同规模多个SOTA,提出用小模型管理数据范式

字节Seed首次开源代码模型! Seed-Coder,8B规模,超越Qwen3,拿下多个SOTA。 它证明“只需极少人工参与,LLM就能自行管理代码训练数据”。
5/12/2025 9:00:00 AM

个人开发者训400亿参数大模型:分布式算力,DeepSeek架构,3090单卡部署

打破科技巨头算力垄断,个人开发者联手也能训练超大规模AI模型? Nous Research宣布推出Psyche Network,可以将全球算力整合起来训练强大的人工智能。 Psyche是一个基于Deepseek的V3 MLA架构的去中心化训练网络,测试网首次启动时直接对40B参数LLM进行预训练,可以在单个H/DGX上训练,并在3090 GPU上运行。
5/16/2025 9:06:00 AM

通义千问2.0正式亮相,阿里云全面升级AI基础设施,中国大模型公司一半跑在阿里云上

10 月 31 日,在 2023 云栖大会上,阿里云 CTO 周靖人表示,面向智能时代,阿里云将通过从底层算力到 AI 平台再到模型服务的全栈技术创新,升级云计算体系,打造一朵 AI 时代最开放的云。在现场,周靖人公布了云计算基础能力的最新进展,升级了人工智能平台,并发布千亿级参数规模的大模型通义千问 2.0,以及一站式模型应用开发平台阿里云百炼,阿里云已初步建成 AI 时代全栈的云计算体系。
10/31/2023 3:13:00 PM
机器之心
  • 1