AI在线 AI在线

英伟达发布首个自动驾驶推理模型,押注下一代 AI 大脑

芯片巨头英伟达周一在加州圣地亚哥举行的 NeurIPS 人工智能大会上宣布了新的基础设施和人工智能模型,此举旨在加速构建物理人工智能(Physical AI)的基础技术,该领域包括能够感知现实世界并与之互动的机器人和自动驾驶汽车。 首个自动驾驶推理视觉语言模型亮相英伟达发布了 Alpamayo-R1,这是一款专用于自动驾驶研究的开放式推理视觉语言模型(VLAM)。 该公司声称,这是首个专注于自动驾驶的视觉语言动作模型。

芯片巨头英伟达周一在加州圣地亚哥举行的 NeurIPS 人工智能大会上宣布了新的基础设施和人工智能模型,此举旨在加速构建物理人工智能(Physical AI)的基础技术,该领域包括能够感知现实世界并与之互动的机器人和自动驾驶汽车。

首个自动驾驶推理视觉语言模型亮相

英伟达发布了 Alpamayo-R1,这是一款专用于自动驾驶研究的开放式推理视觉语言模型(VLAM)。该公司声称,这是首个专注于自动驾驶的视觉语言动作模型。视觉语言模型能够同时处理文本和图像,使车辆能够“看到”周围环境,并根据感知信息做出决策。

Alpamayo-R1基于英伟达的 Cosmos-Reason 模型,该推理模型能够在做出响应之前进行“思考”和决策。英伟达表示,像 Alpamayo-R1这样的技术对于旨在实现 L4级完全自动驾驶的公司至关重要,并希望这种推理模型能赋予自动驾驶汽车“常识”,使其能够更好地处理复杂的驾驶决策,更像人类驾驶员。

这款新模型已在 GitHub 和 Hugging Face 平台开放。

英伟达

 Cosmos Cookbook:加速开发者落地应用

除了新的视觉模型,英伟达还在 GitHub 上线了一套新的分步指南、推理资源和训练后工作流程,统称为 Cosmos Cookbook。这套指南涵盖了数据整理、合成数据生成和模型评估等方面,旨在帮助开发者更好地使用和训练 Cosmos 模型,以满足其特定的应用场景需求。

 锁定下一波AI浪潮:物理人工智能

此次发布正值英伟达全力推进物理人工智能领域之际,将其视为其先进 AI GPU 的新应用方向。

英伟达联合创始人兼首席执行官黄仁勋曾多次强调,下一波人工智能浪潮将是物理人工智能。英伟达首席科学家比尔·戴利也表达了类似观点,并着重强调了物理人工智能在机器人领域的应用。戴利此前表示:“我认为最终机器人将在世界上扮演举足轻重的角色,而我们希望最终能够制造出所有机器人的大脑。要做到这一点,我们需要开始研发关键技术。”

相关资讯

贝索斯神秘AI公司Project Prometheus获62亿美元种子轮,创全球早期融资纪录

亚马逊创始人杰夫·贝索斯(Jeff Bezos)被曝以联合CEO身份加入神秘AI初创Project Prometheus,公司成立初期即完成62亿美元(约441亿元人民币)种子轮融资,为全球资金最充裕的早期创业公司之一。 融资部分来自贝索斯个人,其余资方未披露;公司无官网、未公开成立时间与总部地址,目前已招募约100名员工,核心团队来自OpenAI、Google DeepMind和Meta。 Project Prometheus聚焦“物理AI”,面向计算机、航空航天、汽车及制造业研发人工智能系统,旨在提升复杂工程与制造流程的自动化水平。
11/18/2025 12:21:44 PM
AI在线

IBM发布视觉语言模型Granite-Vision-3.1-2B,轻松解析复杂文档

随着人工智能技术的不断发展,视觉与文本数据的融合成为了一项复杂的挑战。 传统的模型往往难以准确解析表格、图表、信息图和图示等结构化视觉文档,这一限制影响了自动内容提取和理解能力,进而影响了数据分析、信息检索和决策等应用。 面对这一需求,IBM 近期发布了 Granite-Vision-3.1-2B,一款专为文档理解设计的小型视觉语言模型。
2/8/2025 4:45:00 PM
AI在线

300倍体积缩减!​Hugging Face推SmolVLM模型:小巧智能,手机也能跑AI

Hugging Face 推出了一款令人瞩目的 AI 模型 ——SmolVLM。 这款视觉语言模型的体积小到可以在手机等小型设备上运行,且性能超越了那些需要大型数据中心支持的前辈模型。 SmolVLM-256M 模型的 GPU 内存需求不足1GB,性能却超过了其前代 Idefics80B 模型,这一后者的规模是其300倍,标志着实用 AI 部署的一个重大进展。
1/24/2025 9:48:00 AM
AI在线