AI在线 AI在线

元戎率先供应VLA方案!打掉车企数亿自研预算,下探至10万级车型

“VLA的下限,就是端到端的上限”。 这是元戎启行CEO周光在VLA(视觉语言动作)模型发布会上,对VLA能力的概括。 在周光看来,此前的智能辅助驾驶系统都可以归为端到端1.0阶段,上限已至,就像尼安德特人 (智力不行的人种,已灭绝)。

“VLA的下限,就是端到端的上限”。

这是元戎启行CEO周光在VLA(视觉语言动作)模型发布会上,对VLA能力的概括。

元戎率先供应VLA方案!打掉车企数亿自研预算,下探至10万级车型

在周光看来,此前的智能辅助驾驶系统都可以归为端到端1.0阶段,上限已至,就像尼安德特人 (智力不行的人种,已灭绝)

VLA则是端到端2.0阶段,目前还处于及格水平,但下限已超越1.0时期的上限,就像智人(现代人类)。

“智人版端到端”采用了全新架构,标志着辅助驾驶步入大模型时代。

因此具备了全新的能力,融入了思维链,AI司机会“害怕”了,就像生物进化出了保护机制,还能给你分析当前场景,输出文字解释自己的决策。

元戎率先供应VLA方案!打掉车企数亿自研预算,下探至10万级车型

这也是业内第一家推出VLA方案的辅助驾驶供应商。在此之前,VLA基本处于车企自研状态,而且据其中上市公司透露,其研发预算在数亿元甚至数十亿元级别

元戎第一枪,打掉了上亿自研预算。在此之后,车企VLA立项或许都要面临拷问:是不是比元戎方案更好?有没有必要投入如此规模预算重复造轮子??

而且元戎也并没有把VLA的应用限定在辅助驾驶。

在发布会上元戎明确,要用特斯拉的方式做Robotaxi,不走依赖高精地图Waymo路线。未来机器人也会和车端基于同一套系统。

元戎率先供应VLA方案!打掉车企数亿自研预算,下探至10万级车型

在发布会后,关于VLA的现状和未来,元戎分享了很多共识和非共识。

比如大算力,具体要多大?

在元戎看来起码要基于英伟达Thor-U,也就是700TOPS,Orin平台无法落地VLA

元戎启行推出VLA,是端到端1.0方案进入瓶颈期的必然。

元戎透露,目前其端到端方案量产数量已接近10万台,均可实现城区NOA。随着量产规模扩大,获取到的数据增多,元戎感知到了技术瓶颈。

在元戎看来,当前的技术方案主要有三大限制:

首先是BEV(鸟瞰)视角先天就存在局限性,就像咱们日常玩“吃鸡”或者其他射击游戏,辅助驾驶系统遇到一面墙,因为看不到墙后的场景,会下意识的认为墙后不存在物体。

元戎率先供应VLA方案!打掉车企数亿自研预算,下探至10万级车型

但有经验的玩家,遇到视野盲区,会下意识地思考,墙后是不是藏着什么东西,从而采取谨慎的策略往前走。

这种对空间关系的理解和思考,是端到端1.0时代基于CNN(卷积神经网络)的范式无法实现的。

其次,当前的辅助驾驶系统很多都是“文盲”,理解不了咱们日常开车会遇到的文字信息标识,比方说交通标志、临时路牌和地面上印刷的文字。

典型代表就是限制时段的公交车道,这也是今年年初马斯克坦承FSD入华面临的挑战之一。

元戎率先供应VLA方案!打掉车企数亿自研预算,下探至10万级车型

最后,目前的端到端方案可解释性比较差,像一个黑盒子,用户不知道系统为什么此时刹车或者变道,想了解背后的逻辑。

如果系统具备语言理解能力,就能向用户做出解释,让用户用起来更有安全感。

总之,辅助驾驶需要具备语言和空间理解能力,以及更强的可解释性,但现在的范式满足不了新的需求。

元戎率先供应VLA方案!打掉车企数亿自研预算,下探至10万级车型

元戎认为,基于传统CNN(卷积神经网络)打造的模型,无论再上多少手段和额外训练手段,提升手段都比较有限。

是时候重塑底层架构,突破技术瓶颈了。

元戎选择转向基于GPT(Generative Pre-trained Transformer)的架构,打造VLA模型。

元戎率先供应VLA方案!打掉车企数亿自研预算,下探至10万级车型

一方面,VLA从互联网进行了海量数据蒸馏和训练,模型积累了丰富的常识,这是过去CNN或者BEV端到端系统没有的。

另一方面,VLA还具备了思维链(CoT)能力,能够理解长时序的数据并进行推理,短期记忆依靠视频类型的数据,长期记忆就依靠关键帧语言描述

这一点就像咱们人类的记忆系统,如果我问你今天开车上班都遇到了什么,你可能会想起从出门到目的地一路上的各种情况。

元戎率先供应VLA方案!打掉车企数亿自研预算,下探至10万级车型

但是如果问你当年考驾照的情况,那你脑子就只记得几个关键图片或者瞬间了,比如说“扣100分,考试不通过”诸如此类。

新范式培养出新能力,会带来什么新体验?

元戎提出「防御性驾驶」,让AI学会害怕,让用户用的安心。

比如遇到前无信号灯、左有桥洞的岔路,系统会主动识别,减速慢行,并在右下角给出解释。

元戎率先供应VLA方案!打掉车企数亿自研预算,下探至10万级车型

再比如雨天转向前,遇到临停车制造了盲区,系统也会降低车速,缓缓转向。

元戎率先供应VLA方案!打掉车企数亿自研预算,下探至10万级车型

雨天遇到积水也会主动减速,避免水溅到行人。

元戎率先供应VLA方案!打掉车企数亿自研预算,下探至10万级车型

至于语音控车,比如给车子下指令靠边停车、变道,在元戎看来是比较基础的功能,只是拨杆变道换了一种形式。

元戎率先供应VLA方案!打掉车企数亿自研预算,下探至10万级车型

随着VLA的推出,元戎认为智能辅助驾驶也来到了新的阶段。

规则驱动和基于CNN的端到端1.0方案,属于弱专家系统,相当于人类智慧中的「小学生水平」,现在的VLA属于通才系统。这套系统同时支持融合感知和视觉方案,可以基于多芯片平台开发。

据了解,目前已经有5款车型确定将在今年搭载元戎的VLA模型,搭载元戎方案的车辆累计将达20万台。

元戎率先供应VLA方案!打掉车企数亿自研预算,下探至10万级车型

在发布会最后,元戎总结认为,辅助驾驶和自动驾驶注定与大模型共生,行业会全面走向GPT架构的端到端模型

当然受限于车端的条件,比如芯片算力和能耗要求,车端模型相比动辄数千亿甚至万亿参数规模的大语言模型还是一个“婴儿”,未来的方向是让模型自主学习、持续进化

在发布会后,元戎启行创始人、CEO周光随即接受了访谈,围绕行业现状和未来,分享了一系列共识和非共识。

Q:能否通过思维链的表现来评价VLA的能力?

周光:没有CoT,就不算是VLA。目前行业还没有像NLP那样统一的评测基准,但未来可能会建立基于物理场景的专用Benchmark。

Q:满分10分你给当前版本的VLA打几分?

周光:我个人打6分,刚及格。VLA模型仍处于早期,相当于“幼年期”,但上限远高于端到端方案。新一代架构需要新一代芯片支持,这不是CNN时代可比的。

Q:从6分到8分需克服哪些困难?

周光:目前技术仍无法实现全无人驾驶。缺乏推理能力,仅靠高精地图无法根本解决泛化问题。VLA是当前最优路径,但彻底解决问题需技术持续突破。

Q:你认为语音控车属于基础功能。那么对VLA来说,真正难的是什么?

周光:最难的是思维链(Chain of Thought, CoT)和长时序推理。这才是VLA真正的核心能力。

Q:非VLA架构也可实现防御性驾驶,VLA是必须的吗?

周光:统计方法能部分实现防御策略,但复杂场景需真正推理能力。VLA因具备思维链和语言推理,能更彻底解决这些问题。BEV在空间理解上存在天然局限。

Q:元戎怎么看待世界模型和仿真数据用于训练?

周光:VLA与第一代端到端最根本的区别是模型架构变了——从CNN转向GPT。训练方法比如是否引入RL(强化学习),只是策略问题。CNN架构本身无法实现类似人类的推理和泛化能力。

Q:元戎训练数据源自哪里?

周光:数据来源多方面:包括自有测试车队、量产车数据,以及生成数据。要实现GPT架构的预训练,必须依赖大规模、多样化数据集,这是CNN模型无法胜任的。

Q:VLA模型是否也会出现“幻觉”?如何减少?

周光:预训练阶段确实可能产生幻觉,但通过后训练对齐技术,已经能极大抑制这一现象。现在主流大模型(如豆包、千问)幻觉现象已经很少,这方面已有较好的解决方案。

Q:VLA模型相比端到端方案会贵多少?成本差距大吗?

周光:主要成本差异在芯片,其余部分基本一致。芯片成本取决于制程工艺,千T级芯片算力时代已经到来,例如特斯拉2500TOPS芯片,双芯片即可实现5000TOPS。

Q:LLM强于文本推理而非空间感知,你如何看待?

周光:更准确地说,VLA本质是“基于GPT的端到端模型”。目前坚持投入大算力的公司,比如特斯拉和小鹏,其实都在朝这个方向走。

比如特斯拉AI5芯片算力达2500TOPS,CNN模型参数量有限,显然不需要如此大规模的算力,只有GPT架构天然适合扩展,才需要大参数和大算力支持,这才是未来方向。

Q:VLA模型帧率目前低于某些端到端方案(10~20帧),这是现阶段的限制吗?有没有弥补方式?

周光帧率影响本质是延迟问题。从100毫秒降至50毫秒已有明显收益,VLA初期帧率稍低是正常现象。帧率并非越高越好,预判能力增强也能弥补帧率限制。

Q:马斯克说“激光雷达让自动驾驶更不安全”,你如何看待?

周光:短期来看,激光雷达受限于技术发展和数据集的成熟度,仍有其价值,对通用障碍物识别仍有重要作用。

长期来看,大模型有望逐步解决现在依赖激光雷达的部分任务。

Q:如果持续提升VLA的推理能力,未来可能带来哪些突破?

周光:VLA目前还未完全实现思维链,这是关键差距。长远来看,语言和推理能力是实现完全无人化自动驾驶的核心。

比如遇到“左转不受灯控”这种临时标识,依赖地图更新是不够的,需要实时理解。

VLA在这条路上任重道远,需要更多技术沉淀。特斯拉之所以投入十倍算力和参数,正是因为GPT架构是明确方向,CNN无法支撑这种扩展。

Q:车端和(未来)机器人用的VLA模型是同一套架构吗?

周光:是的,VLA本身是通用架构,不再为特定场景定制。正如我们年初发布的RoadAGI策略所说,未来这一技术可泛化至多种移动场景——包括小区、电梯、办公室等室内外环境。

现在的机器人很多还依赖遥控,你看最近的那个“机器人马拉松”比赛,一堆机器人跟在后面,比较不高端。还有的用“巡线”,我高中做机器人的时候就在用这种技术了。

我们希望能实现真正自主、通用的移动能力

Q:元戎的VLA支持多种芯片平台,具体都有哪些?厂商可以指定芯片吗?

周光:芯片适配有一定要求,比如基础算力、带宽等。模型训练完成后会经过蒸馏和量化,适配需要满足基本条件。

合作中车厂可以提出芯片需求,适配成本(时间、资金、数据)都是可协商的。我们目前以英伟达Thor为起点,未来会支持更多芯片,并不局限于一家。

Q:VLA会加速元戎出海吗?

周光:出海的关键在于合规。如果特斯拉能进入中国训练,体验会完全不同。AI模型正越来越通用化,互联网数据训练的基础模型已具备较强泛化能力,不存在“中国模型只懂中国”的说法。AI发展的大趋势是走向通用。

Q:长期看仿真数据在训练中的占比会达到多少?仿真数据生成能力会成为壁垒吗?

周光:仿真需基于真实数据,否则无法有效模拟。现实数据仍是主体,仿真作为补充。从预训练到后训练阶段,仿真比例会逐渐提升。行业应关注大模型整体发展,避免局限在自动驾驶领域。技术本质是相通的,就像人脑神经元结构并无太大差异。

Q:元戎是否会参与L4竞争?

周光传统自动驾驶等级划分已过时,真正的无人驾驶需推理能力,纯规则系统无法应对“红灯可否左转”这类问题。

Q:有厂商大幅减少实车测试、增加仿真里程,这是行业趋势吗?

周光:我们更专注于自身技术路线。仿真是数据来源的一种,关键不在于是真实还是仿真,而在于数据质量。高质量数据集才是模型优化的核心。

Q:辅助驾驶研发能跳过端到端,直接从规则转向VLA吗?

周光:每个阶段都无法跳过,从有图、无图、端到端到VLA,整个发展过程必不可少,最多只能压缩某些阶段的时间,但不可能完全绕过。目前VLA的下限已经超过端到端方案的上限。

Q:以后各家厂商在研发高阶智能辅助驾驶芯片时,除了做到数千TOPS算力,还必须对Transformer的原生、高效支持作为核心设计指标?

周光:确实如此。早期芯片主要针对CNN设计,未来一定会加强对Transformer的支持,尤其是在FP4、FP6等精度的优化上。

Q:为什么行业当下都在强调强化学习?

周光:强化学习只是模型训练的一种手段,属于“后训练”阶段的一部分。如今行业已进入后训练时代,但这本身并不值得过度强调——就像GPT或Waymo也不会单独强调强化学习。

Q:有厂商表示训练VLA需要数万张卡,元戎启行如何看待这种巨大的资源消耗?

周光:元戎在技术选型上一直较为精准,VLA是一个全新领域,方向选择很多,如果有清晰的技术判断,资源消耗完全可以更高效。事实上,辅助驾驶场景的GPT模型规模相对可控,比如7B模型并不需要极端庞大的算力。

Q:华为不走VLA路线,你怎么看?

周光若车端算力不足,确实可能选择其他路径。但真正要实现思维链仍需VLA方向。

Q:VLA能上车什么价位的车型?

周光:目前15万元以上的车型都可以适配,10万级车型通过优化也有机会搭载。

相关资讯

明星造车公司破产在即:巅峰市值2000亿,创始人因诈骗锒铛入狱

杰西卡 发自 副驾寺. 智能车参考 | 公众号 AI4Auto又一家电车明星,来到了破产边缘。 号称“氢版特斯拉”的Nikola——尼古拉,靠着和特斯拉一样宏大的愿景,一步步走上巅峰——.
2/8/2025 4:13:45 PM
杰西卡

马斯克亲弟参与抛售20万股,特斯拉董事会多人套现,公司市值蒸发7000亿

杰西卡 发自 副驾寺. 智能车参考 | 公众号 AI4Auto有大事? 这才公布财报没几天,特斯拉董事接连抛售近20万股股票,价值高达535282456元——5亿元。
2/8/2025 3:57:24 PM
杰西卡

李想自曝常和雷军吃饭,不舒服的建议也会提

一凡 发自 副驾寺. 智能车参考 | 公众号 AI4Auto李想又上央视了,从个人日程安排到「最后一次创业」,他分享了一系列不为人知的隐秘,智能车参考总结有以下八大亮点:1.常和雷军李斌何小鹏约饭,不舒服的建议也会提. 2.有三种情况会发脾气,“听我讲完”是断章取义.
7/7/2025 4:53:10 PM
一凡
  • 1