
VLA 本土化破局。
2 月底,特斯拉 FSD 入华了,国内全体智驾企业绷紧了脊背。
3 月,特斯拉 FSD“翻车”和“丝滑”同时出现,大佬们的笑容虽然回到了脸上,但心里的焦虑就不得而知了。
回顾特斯拉 FSD 入华后的表现,有一种将《智驾迷惑行为大赏》和《智驾优秀生演示稿》放在一起排排坐的割裂感。一方面在上海陆家嘴,FSD 把公交车道当超车道狂飙;广州塔底下,导航明明显示绿灯,车子却因为把“前方施工”的警示牌看成了广告牌突然来了个急刹。一方面,它在常规驾驶中,展现出了老司机的水准,能够准确避让非机动车,毫不迟疑地完成掉头、转弯等动作,给到用户熟练丝滑的体验。
FSD 在常规驾驶中表现丝滑
造成这样场面的理由也很简单,特斯拉的底层 AI 技术积累雄厚,可以支撑智能驾驶在常规使用过程中的丝滑体感,但由于搭载了端到端模型(对比传统模块化的智能驾驶模型,端到端模型虽然在感知、决策、控制等过程不会产生信息的损耗,但本质上仍是依照指令实施相应的操作,不能理解潮汐车道等特殊路况的行驶规则)缺乏中国数据训练系统,导致 FSD 并不了解中国复杂的人车博弈场景,看不懂特殊道路的行驶规则,这也演变出了特斯拉的“智驾迷惑行为大赏”。
而大佬们的集体焦虑症结也在于此,因为其强大的底层逻辑能力,特斯拉一旦补齐了国内短板,势必会给国内车企造就一片“乌云”。
在这时候,VLA 出现了。
一个好消息和一个坏消息
好消息是,VLA 模型可以解决端到端的“短板”,融合了看、想、做三个动作,分别使用摄像头+激光雷达收集路况信息,相当于给车装上了 24k 大眼睛;大语言模型通过解决交通标志、行人意图等分析接下来的路况,不夸张的说连“行人要闯红灯”都 get 到,潮汐车道、公交车道也应付得了;根据看到的和思考的,VLA 可以为车辆做出最优路线并控制车辆,还能贴心解释决策逻辑,如“减速是因为前方有儿童突然冲出”......
简单来说就是 VLA 融合了视觉、语言和动作,给车辆赋予了“类人思维链”,从端到端的“看图说话”演变成了“阅读理解”。
既然 VLA 可以解决端到端的技术短板,那为什么国内车企对特斯拉 FSD 进入中国还会感到焦虑?其实很容易理解,特斯拉 FSD 的基础能力与学习能力是强大的,仅靠在互联网上寻找中国道路的视频片段来训练,就能让系统展现出老司机的一面,一旦特斯拉补齐在中国的数据,克服在中国遇到的“水土不服”,它或许将成为中国市场最好的智驾之一。 在前几天的百人会上元戎启行 CEO 周光与博世中国区总裁吴永桥也直言,FSD V13 在端到端智驾技术上领先国内高阶智驾系统一个代差。
那么,底层技术的参差是国内 VLA 可以跨越的吗?FSD V13 跟 VLA 在业界都被视为智驾大模型阶段的产物。在周光看来,VLA 的能力使其成为“通才系统”,即在垂直领域内具备广泛的场景适应性。
“VLA 则能补齐端到端模型的短板,是一位驾驶通才,看得懂语义信息,能理解特殊车道的驾驶规则。只有先成为驾驶通才,才能成为驾驶领域的专家,即实现完全自动驾驶。”周光将 VLA 架构视为走向 L5 的转折点,他认为 VLA 的本质是构建时空统一的认知框架,这为实现 L5 级自动驾驶提供了底层支撑。
简而言之,周光认为元戎启行推的 VLA 是在保留核心 AI 能力的基础上,向 L5 进发的较优方案,既满足了技术追求也能满足商业化。
好消息足够令人振奋,坏消息就让人多少有些不安了——那就是目前还没有完全 VLA 车型落地。但是先别急,已经在做了。
四条路线的“逆袭”之路
现在国内市面上明确布局 VLA 的玩家有四个,分别是数据“狂魔”理想、“合资”大户奇瑞、“买买买专业户”吉利以及激进派选手元戎启行。
理想用的是“MindVLA”,融合了 3D 高斯编码、MoE 混合专家架构这些高大上的技术,复杂路况决策准确率确实领先同行。但关键问题是他们得同时养着端到端和 VLM 两套系统,虽然数据(底气)充足——动态数据湖覆盖密度全行业第一,豪言要在 2025 年实现“数据自由”,但研发成本直线上升,马上覆盖一个造车新势力的成本了。
合资大户奇瑞的诀窍是朋友多,拉上华为、英伟达做出一个猎鹰智驾,计划 VLA 模型在猎鹰 900 上实现,但它的世界模型(WM)预测能力还没有达标,落地时间也定在了 2027 年。
“买家专业户”吉利则是以“千里浩瀚”智驾系统为矛头,祭出“全域 AI+ 天地一体”的组合拳,试图用生态碾压单一技术。
激进派的元戎启行则和前三者有着本质的区别,它不仅是极少数投入研发 VLA 的智驾方案供应商,而且已经把前者甩在身后走进了量产阶段。不出意外,年中就可以看到搭载元戎 VLA 的车型上路。
别人刚开始研究,元戎已经在量产了?其实仔细看看元戎启行的发展路线,就能发现其实 TA 一直在默默处于前列。2020 年元戎启行提出“无图”智驾,到了 2024 年无图的风才刮起来;2024 年车企大肆谈论端到端的时候,元戎启行的端到端已经落地量产;2025 年都在抢占端到端市场份额的时候,元戎的下一代 VLA 已经量产进行中了。
周光曾直言自己是国内智能驾驶技术的“启蒙老师”,现在再来看,确实也不必惊讶。
在任何行业里,落后就要挨打都是一个共识,智能驾驶行业不外乎。车企都想自己是“最”领先,这个时候,选择一个“成熟稳重”第三方的优势就体现了。
已经实现量产的企业先一步建成了技术护城河:凭借 VLA 技术所支持的长时间推理与全局决策能力,将显著提升城区 NOA 的实际使用频率,进而为企业积累更大规模、更高质量的真实场景数据;基于 Scaling Law(规模律),数据规模的提升将反哺算法性能迭代,进一步提升用户体验。
譬如元戎启行,不但已经进行到了量产阶段,而且还已经跟高通达成了合作。通过在算子开发层面的深研,未来有机会把 VLA 模型释放到更多芯片平台,支持纯视觉和激光雷达版本,这意味着作为一个第三方元戎已经生动演绎了什么叫“活儿好,事儿少,跟谁都搭。”
当然,后来者想居上也不是没可能。但这意味着不仅要耗费大量的资金和资金,最怕的就是,废了九牛二虎之力做成了的时候,别人可能迭代到第 3 代甚至第 4 代了,白白错失最佳发展的“黄金窗口期”。
总结一句,出力不讨好。就像文学家张岱说的“不能为了喝一口奶去养一头牛”。因为已经有了成熟的牧场,养殖(底层逻辑)-护理(AI 技术的延展能力)-出品(量产能力)都已经成熟,实在没必要。
当 2023 年宣布 FSD BetaV12(完全自动驾驶测试版)全面转向端到端架构时,在一定程度上颠覆了行业的认知。当特斯拉将未满血版的 V13 同步到中国时,国内智驾行业再起波澜,车企高管们时刻警惕着自己的心脏能否承担起特斯拉的数据量补齐后对自家产品带来的冲击。
当下,国内智驾领域的头部企业都已实现量产,各家的工程化能力都处于同一水平段。
智能驾驶的竞争也由工程化能力切换为 AI 模型的底层能力。可以预料的是,当今年国内搭载 VLA 技术的车型逐步上路时,或许特斯拉 FSD 和国内 VLA 孰强孰弱将有一个新的答案。