元戎率先供应VLA方案！打掉车企数亿自研预算，下探至10万级车型

“VLA的下限，就是端到端的上限”。这是元戎启行CEO周光在VLA（视觉语言动作）模型发布会上，对VLA能力的概括。在周光看来，此前的智能辅助驾驶系统都可以归为端到端1.0阶段，上限已至，就像尼安德特人 (智力不行的人种，已灭绝)。

“VLA的下限，就是端到端的上限”。

这是元戎启行CEO周光在VLA（视觉语言动作）模型发布会上，对VLA能力的概括。

在周光看来，此前的智能辅助驾驶系统都可以归为端到端1.0阶段，上限已至，就像尼安德特人 (智力不行的人种，已灭绝)。

VLA则是端到端2.0阶段，目前还处于及格水平，但下限已超越1.0时期的上限，就像智人（现代人类）。

“智人版端到端”采用了全新架构，标志着辅助驾驶步入大模型时代。

因此具备了全新的能力，融入了思维链，AI司机会“害怕”了，就像生物进化出了保护机制，还能给你分析当前场景，输出文字解释自己的决策。

这也是业内第一家推出VLA方案的辅助驾驶供应商。在此之前，VLA基本处于车企自研状态，而且据其中上市公司透露，其研发预算在数亿元甚至数十亿元级别。

元戎第一枪，打掉了上亿自研预算。在此之后，车企VLA立项或许都要面临拷问：是不是比元戎方案更好？有没有必要投入如此规模预算重复造轮子？？

而且元戎也并没有把VLA的应用限定在辅助驾驶。

在发布会上元戎明确，要用特斯拉的方式做Robotaxi，不走依赖高精地图Waymo路线。未来机器人也会和车端基于同一套系统。

在发布会后，关于VLA的现状和未来，元戎分享了很多共识和非共识。

比如大算力，具体要多大？

在元戎看来起码要基于英伟达Thor-U，也就是700TOPS，Orin平台无法落地VLA。

元戎启行推出VLA，是端到端1.0方案进入瓶颈期的必然。

元戎透露，目前其端到端方案量产数量已接近10万台，均可实现城区NOA。随着量产规模扩大，获取到的数据增多，元戎感知到了技术瓶颈。

在元戎看来，当前的技术方案主要有三大限制：

首先是BEV（鸟瞰）视角先天就存在局限性，就像咱们日常玩“吃鸡”或者其他射击游戏，辅助驾驶系统遇到一面墙，因为看不到墙后的场景，会下意识的认为墙后不存在物体。

但有经验的玩家，遇到视野盲区，会下意识地思考，墙后是不是藏着什么东西，从而采取谨慎的策略往前走。

这种对空间关系的理解和思考，是端到端1.0时代基于CNN（卷积神经网络）的范式无法实现的。

其次，当前的辅助驾驶系统很多都是“文盲”，理解不了咱们日常开车会遇到的文字信息标识，比方说交通标志、临时路牌和地面上印刷的文字。

典型代表就是限制时段的公交车道，这也是今年年初马斯克坦承FSD入华面临的挑战之一。

最后，目前的端到端方案可解释性比较差，像一个黑盒子，用户不知道系统为什么此时刹车或者变道，想了解背后的逻辑。

如果系统具备语言理解能力，就能向用户做出解释，让用户用起来更有安全感。

总之，辅助驾驶需要具备语言和空间理解能力，以及更强的可解释性，但现在的范式满足不了新的需求。

元戎认为，基于传统CNN（卷积神经网络）打造的模型，无论再上多少手段和额外训练手段，提升手段都比较有限。

是时候重塑底层架构，突破技术瓶颈了。

元戎选择转向基于GPT（Generative Pre-trained Transformer）的架构，打造VLA模型。

一方面，VLA从互联网进行了海量数据蒸馏和训练，模型积累了丰富的常识，这是过去CNN或者BEV端到端系统没有的。

另一方面，VLA还具备了思维链（CoT）能力，能够理解长时序的数据并进行推理，短期记忆依靠视频类型的数据，长期记忆就依靠关键帧和语言描述。

这一点就像咱们人类的记忆系统，如果我问你今天开车上班都遇到了什么，你可能会想起从出门到目的地一路上的各种情况。

但是如果问你当年考驾照的情况，那你脑子就只记得几个关键图片或者瞬间了，比如说“扣100分，考试不通过”诸如此类。

新范式培养出新能力，会带来什么新体验？

元戎提出「防御性驾驶」，让AI学会害怕，让用户用的安心。

比如遇到前无信号灯、左有桥洞的岔路，系统会主动识别，减速慢行，并在右下角给出解释。

再比如雨天转向前，遇到临停车制造了盲区，系统也会降低车速，缓缓转向。

雨天遇到积水也会主动减速，避免水溅到行人。

至于语音控车，比如给车子下指令靠边停车、变道，在元戎看来是比较基础的功能，只是拨杆变道换了一种形式。

随着VLA的推出，元戎认为智能辅助驾驶也来到了新的阶段。

规则驱动和基于CNN的端到端1.0方案，属于弱专家系统，相当于人类智慧中的「小学生水平」，现在的VLA属于通才系统。这套系统同时支持融合感知和视觉方案，可以基于多芯片平台开发。

据了解，目前已经有5款车型确定将在今年搭载元戎的VLA模型，搭载元戎方案的车辆累计将达20万台。

在发布会最后，元戎总结认为，辅助驾驶和自动驾驶注定与大模型共生，行业会全面走向GPT架构的端到端模型。

当然受限于车端的条件，比如芯片算力和能耗要求，车端模型相比动辄数千亿甚至万亿参数规模的大语言模型还是一个“婴儿”，未来的方向是让模型自主学习、持续进化。

在发布会后，元戎启行创始人、CEO周光随即接受了访谈，围绕行业现状和未来，分享了一系列共识和非共识。

Q：能否通过思维链的表现来评价VLA的能力？

周光：没有CoT，就不算是VLA。目前行业还没有像NLP那样统一的评测基准，但未来可能会建立基于物理场景的专用Benchmark。

Q：满分10分你给当前版本的VLA打几分？

周光：我个人打6分，刚及格。VLA模型仍处于早期，相当于“幼年期”，但上限远高于端到端方案。新一代架构需要新一代芯片支持，这不是CNN时代可比的。

Q：从6分到8分需克服哪些困难？

周光：目前技术仍无法实现全无人驾驶。缺乏推理能力，仅靠高精地图无法根本解决泛化问题。VLA是当前最优路径，但彻底解决问题需技术持续突破。

Q：你认为语音控车属于基础功能。那么对VLA来说，真正难的是什么？

周光：最难的是思维链（Chain of Thought, CoT）和长时序推理。这才是VLA真正的核心能力。

Q：非VLA架构也可实现防御性驾驶，VLA是必须的吗？

周光：统计方法能部分实现防御策略，但复杂场景需真正推理能力。VLA因具备思维链和语言推理，能更彻底解决这些问题。BEV在空间理解上存在天然局限。

Q：元戎怎么看待世界模型和仿真数据用于训练？

周光：VLA与第一代端到端最根本的区别是模型架构变了——从CNN转向GPT。训练方法比如是否引入RL（强化学习），只是策略问题。CNN架构本身无法实现类似人类的推理和泛化能力。

Q：元戎训练数据源自哪里？

周光：数据来源多方面：包括自有测试车队、量产车数据，以及生成数据。要实现GPT架构的预训练，必须依赖大规模、多样化数据集，这是CNN模型无法胜任的。

Q：VLA模型是否也会出现“幻觉”？如何减少？

周光：预训练阶段确实可能产生幻觉，但通过后训练对齐技术，已经能极大抑制这一现象。现在主流大模型（如豆包、千问）幻觉现象已经很少，这方面已有较好的解决方案。

Q：VLA模型相比端到端方案会贵多少？成本差距大吗？

周光：主要成本差异在芯片，其余部分基本一致。芯片成本取决于制程工艺，千T级芯片算力时代已经到来，例如特斯拉2500TOPS芯片，双芯片即可实现5000TOPS。

Q：LLM强于文本推理而非空间感知，你如何看待？

周光：更准确地说，VLA本质是“基于GPT的端到端模型”。目前坚持投入大算力的公司，比如特斯拉和小鹏，其实都在朝这个方向走。

比如特斯拉AI5芯片算力达2500TOPS，CNN模型参数量有限，显然不需要如此大规模的算力，只有GPT架构天然适合扩展，才需要大参数和大算力支持，这才是未来方向。

Q：VLA模型帧率目前低于某些端到端方案（10~20帧），这是现阶段的限制吗？有没有弥补方式？

周光：帧率影响本质是延迟问题。从100毫秒降至50毫秒已有明显收益，VLA初期帧率稍低是正常现象。帧率并非越高越好，预判能力增强也能弥补帧率限制。

Q：马斯克说“激光雷达让自动驾驶更不安全”，你如何看待？

周光：短期来看，激光雷达受限于技术发展和数据集的成熟度，仍有其价值，对通用障碍物识别仍有重要作用。

长期来看，大模型有望逐步解决现在依赖激光雷达的部分任务。

Q：如果持续提升VLA的推理能力，未来可能带来哪些突破？

周光：VLA目前还未完全实现思维链，这是关键差距。长远来看，语言和推理能力是实现完全无人化自动驾驶的核心。

比如遇到“左转不受灯控”这种临时标识，依赖地图更新是不够的，需要实时理解。

VLA在这条路上任重道远，需要更多技术沉淀。特斯拉之所以投入十倍算力和参数，正是因为GPT架构是明确方向，CNN无法支撑这种扩展。

Q：车端和（未来）机器人用的VLA模型是同一套架构吗？

周光：是的，VLA本身是通用架构，不再为特定场景定制。正如我们年初发布的RoadAGI策略所说，未来这一技术可泛化至多种移动场景——包括小区、电梯、办公室等室内外环境。

现在的机器人很多还依赖遥控，你看最近的那个“机器人马拉松”比赛，一堆机器人跟在后面，比较不高端。还有的用“巡线”，我高中做机器人的时候就在用这种技术了。

我们希望能实现真正自主、通用的移动能力。

Q：元戎的VLA支持多种芯片平台，具体都有哪些？厂商可以指定芯片吗？

周光：芯片适配有一定要求，比如基础算力、带宽等。模型训练完成后会经过蒸馏和量化，适配需要满足基本条件。

合作中车厂可以提出芯片需求，适配成本（时间、资金、数据）都是可协商的。我们目前以英伟达Thor为起点，未来会支持更多芯片，并不局限于一家。

Q：VLA会加速元戎出海吗？

周光：出海的关键在于合规。如果特斯拉能进入中国训练，体验会完全不同。AI模型正越来越通用化，互联网数据训练的基础模型已具备较强泛化能力，不存在“中国模型只懂中国”的说法。AI发展的大趋势是走向通用。

Q：长期看仿真数据在训练中的占比会达到多少？仿真数据生成能力会成为壁垒吗？

周光：仿真需基于真实数据，否则无法有效模拟。现实数据仍是主体，仿真作为补充。从预训练到后训练阶段，仿真比例会逐渐提升。行业应关注大模型整体发展，避免局限在自动驾驶领域。技术本质是相通的，就像人脑神经元结构并无太大差异。

Q：元戎是否会参与L4竞争？

周光：传统自动驾驶等级划分已过时，真正的无人驾驶需推理能力，纯规则系统无法应对“红灯可否左转”这类问题。

Q：有厂商大幅减少实车测试、增加仿真里程，这是行业趋势吗？

周光：我们更专注于自身技术路线。仿真是数据来源的一种，关键不在于是真实还是仿真，而在于数据质量。高质量数据集才是模型优化的核心。

Q：辅助驾驶研发能跳过端到端，直接从规则转向VLA吗？

周光：每个阶段都无法跳过，从有图、无图、端到端到VLA，整个发展过程必不可少，最多只能压缩某些阶段的时间，但不可能完全绕过。目前VLA的下限已经超过端到端方案的上限。

Q：以后各家厂商在研发高阶智能辅助驾驶芯片时，除了做到数千TOPS算力，还必须对Transformer的原生、高效支持作为核心设计指标？

周光：确实如此。早期芯片主要针对CNN设计，未来一定会加强对Transformer的支持，尤其是在FP4、FP6等精度的优化上。

Q：为什么行业当下都在强调强化学习？

周光：强化学习只是模型训练的一种手段，属于“后训练”阶段的一部分。如今行业已进入后训练时代，但这本身并不值得过度强调——就像GPT或Waymo也不会单独强调强化学习。

Q：有厂商表示训练VLA需要数万张卡，元戎启行如何看待这种巨大的资源消耗？

周光：元戎在技术选型上一直较为精准，VLA是一个全新领域，方向选择很多，如果有清晰的技术判断，资源消耗完全可以更高效。事实上，辅助驾驶场景的GPT模型规模相对可控，比如7B模型并不需要极端庞大的算力。

Q：华为不走VLA路线，你怎么看？

周光：若车端算力不足，确实可能选择其他路径。但真正要实现思维链仍需VLA方向。

Q：VLA能上车什么价位的车型？

周光：目前15万元以上的车型都可以适配，10万级车型通过优化也有机会搭载。

元戎率先供应VLA方案！打掉车企数亿自研预算，下探至10万级车型

相关资讯

元戎启行9月交付超3万台城区NOA车型

明星造车公司破产在即：巅峰市值2000亿，创始人因诈骗锒铛入狱

马斯克亲弟参与抛售20万股，特斯拉董事会多人套现，公司市值蒸发7000亿