李想“驾驶”理想冲入人工智能

  文电厂,作者花子健,编辑高宇雷

  理想八周年的时候,李想发了一封内部信。但在九周年的时候,李想延续了自今年 3 月的沉默和低调,他没有内部讲话,也没有发内部信,“他也就出来参与了内部活动的抽奖。”一位员工说。

  正因为如此,当李想在 12 月 25 日到 27 日,连续三天通过采访形式谈理想在智能驾驶、人工智能的进展和未来规划,才会让人觉得意外。

  2022 年 11 月,OpenAI 的聊天机器人 ChatGPT 惊艳亮相。两个月后,李想在内部说“理想的愿景是成为一家全球领先的人工智能企业。”这看起来像一种跟风行为,但李想在 2022 年 9 月的时候就已经确定把人工智能作为面向未来竞争的一个重要方向。

  汽车是人工智能技术最好的落地场景之一,智能驾驶体验对于用户购车决策的影响越来越明显,语音是智能座舱最高频的交互方式。“2023 年初发布的愿景,我们把人工智能从一个隐藏的战略变成一个开放的阳谋的战略,这样我们才能吸引到足够多的人才。”李想这样解释自己的人工智能发枪令。

  重新回到镜头前,他宣告自己要从一家汽车公司 CEO 转变为人工智能企业 CEO,因为理想做的不是汽车的智能化,而是人工智能的汽车化——正如之前所说,汽车是人工智能具象的最佳产品之一。李想还提出了一个新的概念——“硅基家人”。

  “下半年看不到变化,你就别干了”

  今年初,李想对理想汽车智能驾驶研发负责人郎咸朋说了一句话:“下半年如果我还看不到变化,我们还是拿不到(智能驾驶)头部位置的话,你这个负责人就可以不用干了。”

  早在 2023 年 4 月的上海车展上,理想汽车就喊出了城市 NOA 落地 100 城的目标,以应对来自华为和小鹏的竞争。但仅仅半年过后,这个目标就缩水为“在 100 城开通通勤 NOA”。但两者的实现难度都不小,基于 Transformer 的 BEV 算法加上 Occupancy 网络,以及理想汽车和清华大学联合研发的 NPN 神经先验网络(Neural Prior Net)提供不了符合要求的可靠性和稳定性,效率也很低。

  今年初,李想逼着智驾团队前往美国,在不同的城市驾驶特斯拉的车辆,体验 FSD V12. 随后,理想汽车转向无图 NOA,但功能推送也延迟了 3 个月。

  今年 3 月,理想 MEGA 和新款理想 L7、8、9 上市后的表现都没有达到预期,理想汽车进行了一轮裁员,其中智能驾驶团队属于“重灾区”。郎咸朋带领的团队一直在致力于用代码解决“corner case(极端情况)”,今年上半年,他自己和团队也遇到了职业生涯的 corner case。

  对于理想汽车来说,调减年度销量目标、新车销量不及预期、产品降价以及裁员,今年上半年都是坏消息。但从李想给郎咸朋撂下那句狠话之后——另外一句则是,李想和郎咸朋说“要么做端到端,要么别做自动驾驶了”,一些改变开始发生。

  “我们统一了思路,还是回归产品和用户体验上,而不是追求指标的领先。”郎咸朋说,在李想撂下狠话之前,理想已经开始在端到端的预研,那些话则是加快了研发的进程。

  4 月,理想将 AD 团队中的 200 人带到中关村进行封闭开发,冲刺端到端技术的研发。半个多月后,5 月初,郎咸朋就坐上了第一个端到端版本的测试车,测试路线是从中关村到北京交通大学,途经包括中关村大街、三环的主辅路以及北京交通大学附近的狭小、无划线道路等路段。

  “纵向比之前试过的所有车的状态都要好,刹车非常拟人舒适,这些问题在规则阶段用很多代码都没有办法解决。”郎咸朋很惊讶,因为仅仅用了 15 天时间就做到了这样的水平。理想智驾算法研发部门负责人贾鹏对郎咸朋说:“一行规则都没写,全是系统按照给的数据训练出来的。”

  1 个月后,郎咸朋让李想试一下。在理想汽车北京研发中心,当时经纬中国合伙人张颖也在,李想就让他坐在主驾驶,自己坐在副驾驶。李想在试了之后对效果也感到惊讶,评价很高,“过去 1 个月的训练比过去 3 年做的东西进步速度要更快。”

  李想还举了一个让他印象深刻的场景,在一个路口,有一辆车为了躲避行人往测试车辆偏向,但这辆测试车学会了适时避让,并且没有生硬、顿挫的感觉。李想对张颖的解释是“因为端到端的响应速度更快,不是规则时代的四个步骤了。

  “李想说的 all in 智驾真的不是说说而已,他把智驾看得真的很重,也是真金白银投入。”一位理想汽车的员工说。

  去年 9 月的雁栖湖内部战略会后,李想听从了美团 CEO 王兴和 Y Combinator 中国创始人陆奇的建议,加大了云端训练的投入,从字节跳动购买英伟达的服务器,还在外高价采购英伟达训练卡,还先后与阿里云、百度云等云服务厂商开展合作。

  今年初,理想的智算中心算力在半年时间里从 2.4ELOPS 翻倍增加至 5EFLOPS,并会在今年底达到 8EFLOPS。理想汽车每年在训练算力的投入超过 10 亿元。“我们每年 100 亿的研发投入,有一半是和人工智能相关的投入。”李想说。

  但长远投入更大,理想汽车认为,如果最终实现自动驾驶,需要的训练算力要增加到 100EFLOPS,折合成投入每年要超过 10 亿美元。李想认为这些投入都是值得的。

  他本人 80% 的时间都是用智驾在开车,另外 20% 是因为赶时间,需要驾驶效率,才不用智驾。“端到端在体验上最多可以做到 L3 的水平。”李想说。

  “L3 或者有监督智能驾驶并不是 L2 的延续,而是 L4 或者自动驾驶的先导程序。我们是锚着未来的自动驾驶能力去研发、去成长和迭代的,而不是沿着过去一套用 L2 的思路,去做现在的自动驾驶。”郎咸朋说,这是理想在端到端上重金投入的主要原因之一。

  另外,理想汽车发现优秀的智能驾驶体验的确对销量有帮助。今年 2 月,理想的 AD Max 交付量占比只到 20% 左右,但在今年下半年超过 50% 了,这意味着理想汽车交付的是价格更高的车型。理想汽车希望能够在 2025 年实现 L3。

  “现阶段我们做的都是为了拿到 L4 的门票。电动化是拿智能化下半场的门票,为了实现 L4,我们至少要有 500 万辆车跑在路上,还要自己掌握 VLA(Vision Language Action Model,视觉语言行动模型)这个基础模型的能力。”李想说。

  今年 10 月 14 日,理想汽车第 100 万辆整车在常州基地下线,此时距离第一辆下线整车过去了 58 个月。

  “智能驾驶和理想同学,我都不会舍弃”

  今年理想汽车在销量上遇到一些挑战,今年前 11 个月,理想汽车累计交付了 44.2 万辆车,按照理想汽车的销售能力乐观估计,今年的交付量最多能达到 50 万辆,只有年初目标的大约 62.5%。

  尽管如此,理想汽车的销量在造车新势力中仍然处于领先地位,这确保了他们拥有健康的现金流。今年第三季度,理想汽车的净利润达到 28 亿元,经营性现金流为 110 亿元,现金储备 1065 亿元。

  健康的财务状况是理想在研发投入上的首要条件。即使不这样,李想仍然不会舍弃在人工智能上的投入。“资源有限的话,智能驾驶和理想同学我也不会二选一,我会削减其他的投入。”李想说。

  OpenAI 的 ChatGPT 刚发布的时候,李想就用了,他的第一感觉是“这才是人工智能应该有的样子”。

  理想汽车智能空间 AI 负责人陈伟也同样大受震撼,其中一个原因是大模型带来的认知智能和语言智能上突飞猛进的变化,再者他们也在反思,为什么没有快速把模型架做高做大。李想对陈伟和他的团队提出,要回归用户体验,从核心问题——认知智能开始解决。

  因为他们的判断是,除了 OpenAI,绝大部分的团队技术水平都处于早期阶段,在边界还不清晰的情况下,要把握住第一性原理规模效应。于是,李想和陈伟决定要做基座模型,从底层开始建设,以保证未来的技术扩容能力,应对产品迭代需求。

  2023 年 4 月,Mind GPT 1.0 的第一版模型完成。2023 年年底,理想汽车推送了 OTA 5.0,大模型上车。今年年中,理想的 Mind GPT 迭代到了 2.0。今年底,理想就会上线 Mind GPT 3.0。相比较前两代,Mind GPT 3.0 的重点是语言模型,人机交互的延迟更低,交互更拟人。

  面向未来,Mind GPT 的模型架构采用的是 MoE(混合专家模型)和 Transformer 结合,持续往前迭代。“我们是希望能够实现从 L1 ChatBot(聊天机器人)到 L2(推理者)的变化。在 L1,它能实现多模态,拥有指令遵循的能力。当理想同学走到 L3 的时候,Mind GPT 应该是一个多模态智能体。”陈伟说。

  李想把“智能体”称之为“iPhone 4 时刻”——普通老百姓都能用,能独立、连续、持续的完成任务,而不再需要密集的提示词。

  12 月 27 日,理想同学的应用程序正式在手机端上线,这也是第一家把智能座舱的语音助手做成手机应用程序的汽车公司。就功能和使用而言,理想同学就类似于字节跳动的豆包、百度的文心一言。使用场景的扩展,会给理想的语言大模型迭代提供更多样化的数据。

  “不做人工智能,我们什么也不是”

  李想说,如果不能实现 L4 自动驾驶,理想很难迈入万亿俱乐部的行列。陈伟则更加直接:“我们要是在未来不做人工智能,我们什么都不是。”

  智能驾驶和理想同学,按照定义其实属于人工智能的两个应用。但在李想看来,两者一定能够产生连接,关键在于基座模型进化为 VLA。因为语言模型和智能驾驶一样,都是通过语言和认知理解三维世界,用扩散模型和生成的方式来还原真实的物理世界。

  李想认为,AGI(通用人工智能)有三个阶段。第一个阶段是“增强我的能力”,也就是辅助阶段,L3 也处于这个阶段;第二个阶段是“成为我的助手“,意味着人工智能可以完成任务并承担结果,比如 L4;AGI 的终极阶段就是“硅基家人”,人工智能成为家庭的一员,或者一位可信赖的朋友,不需要任何指示,对所有相关成员都有深入了解。

  对应来看,理想也正在分三步走,首先是在中国市场争取成为第一,然后考虑在受美国限制以外的市场做到第一;2025 年,理想的目标是要在中国成为智能驾驶的第一,在语言智能、大语言模型以及所提供的服务方面进入到前三;再往后,要把语言模型和智能驾驶合成一个更大的 VLA 模型,全面进入智能体阶段,也具备 L4 的能力。

  在未来,理想还会做具身机器人,或者在 2030 年的时候推出一辆具备人工智能能力的超级跑车——这个想法可能在李想下单购买法拉利 296 的时候就已经出现,但未来的主导者可能并不一定是李想本人。

  他同样喜欢把企业的发展分为三个阶段。在0-1 的阶段,他是主导,是团队的天花板;但在1-10 的阶段,他可能就是瓶颈了,所以理想正在建立一个培养人才的体系,确保每个做产品的人都要比三四年前的李想更好。而在走向 100 分的阶段,可能就会是年轻人在主导。

  2024 年,理想迎来了 3000 人的校招新成员,在李想的眼里,这些人比他们那一代人优秀 10 倍以上,受到了最好的教育,心智成熟,更重要的是他们已经拿出了结果。理想的技术展示会上 AI 相关产品有一半以上都是校招团队做出来的,这令他非常惊讶。

  “我们常说一个时代已经过去了,但我在他们身上看到一个时代已经开始了。”李想说。