
衡宇李根发自上海
量子位公众号 QbitAI
火爆,实在太火爆。
具身智能,被视为 AI、自动驾驶之后下一个时代科技风口,现如今正在火爆得一塌糊涂,台上热闹、水下更是滚烫——
量子位获悉,一家 2025 年 2 月才低调出发的创业公司,团队还很精简,技术和产品也才刚刚立项,就在投资市场引发了追逐风暴:大牌投资机构抢着竞购,最后罕见在春节前后完成超募,甚至有些动作不够快的投资机构,只能排到下一轮。
这家具身智能公司,最终官宣了 1. 2 亿美元的天使轮融资,创造了中国具身智能行业最大天使轮新纪录。
可问题是这都已经 2025 年了……最早出发的具身智能创业者,在 3 年前的时间点已经下水。进展快速的具身智能公司,也已经开启场景验证和落地。以及具身智能领域,也从不缺天才和大牛创业者。
还有什么样的创业团队,凭什么在此时此刻搅动如此风云?
一位知情人士说,核心原因是团队豪华,堪称梦之队,而且还是有过硬科技完整落地经验的工程派。也有人拿 NBA 篮球类比,“库里和约基奇联手组了队,联盟大结局”——库里是三分外线第一人,约基奇则被视为最全能的内线中锋,而这家公司背后的核心人物也是两位自动驾驶领域的第一人。
- 一位叫陈亦伦,来自L2,代表智能驾驶;
- 一位叫李震宇,来自L4,代表 Robotaxi。
据说这两人联手创业的进展传出后,获得了这样的评价:陈亦伦带队,牛了;李震宇坐镇,稳了。他们在上海,组建战队,取名它石智航 TARS,竞逐具身智能的 GPT 时刻。
他们创业的消息,实际流传已久,但现如今随着创纪录的 1.2 亿美元天使融资曝光,再也藏不住了。
中国具身智能最壕天使轮融资
它石智航(TARS)官宣的新进展是这样的:
完成天使轮 1.2 亿美元融资,开启具身智能创业新征程。本轮融资由蓝驰创投、启明创投联合领投,线性资本、恒旭资本、洪泰基金、联想创投、襄禾资本、高瓴创投跟投。
没错,融资额 1.2 亿美元。而更多时候,这样的数额通常是天使轮的估值金额。这笔天使轮投资,也创下了具身智能领域天使轮最大融资额。
它石智航的打造者,也有了首次公开发言。
△陈亦伦,它石智航创始人兼 CEO
它石智航创始人兼 CEO 陈亦伦说:“它石智航的使命是以物理世界 AI 和通用机器人技术为核心,构建可信赖的超级具身智能系统,让高性能 AI 规模化的融入人类社会的生产与生活中。”陈亦伦还判断,未来十年,具身智能将成为全球产业升级的关键引擎。它石智航将持续突破物理世界的智能化边界,探索具身智能无限潜力。
据披露,本轮融资将被重点投入产品与技术研发、模型训练以及场景拓展。
领投方之一的蓝驰创投管理合伙人朱天宇更进一步说明了它石智航的三大核心竞争优势:
第一,团队具备全球顶尖的世界模型构建能力、以及超大复杂系统的工程化落地能力;
第二,公司在机器人本体设计与运动控制算法(小脑系统)上拥有深厚技术积累,具备软硬件一体化交付能力;
第三,公司对目标行业痛点有深度洞察,能精准锚定高价值应用场景,交付完整解决方案,不只是“机器人公司”,更是“行业场景解决方案公司”。
另外一家领投方,启明创投主管合伙人周志峰则表示,投身这一领域创业,不仅需要对前沿技术的发展趋势具备深刻的洞察力,还必须拥有丰富的工程化、产品化以及量产经验。它石智航是行业内为数不多的具备完整能力的优秀团队。”
这些一定程度上剧透了它石智航的技术方向和核心特点。
量子位获悉,作为具身智能创业公司,它石智航从一开始就会在软硬件上全栈推进,包含智能软件(算法和大脑)能力、硬件本体能力,以及 AI 大模型产品研发。
其中,被视为核心技术引擎的是名为 AWE——AI World Engine 的世界模型,类如具身领域的 GPT 大模型。但区别 GPT 利用互联网语料训练,它石智航的 AWE 会率先开创 Human-Centric 具身数据引擎,以人为本采集数据,用真实世界具身数据获取能力的跨越式突破。
它石智航内部提到,相比于外部更高热度的“具身智能”,更常用的是“物理 AI”,据称这更接近他们追求的目标,打造一套数据驱动、可泛化的通用物理世界智能系统,并且更关键的是,实现这套系统的工程化、产品化和量产商用。
而这种工程化产品化,正是这个团队被看好的最核心原因,也是这个“豪华梦之队”的独特所在,他们都在具身智能的子集——自动驾驶,实现过前沿技术从 0 到1,从技术到产品,从 demo 到量产商用。
CEO 陈亦伦博士,先后任职大疆机器视觉总工程师、华为自动驾驶 CTO、清华大学智能产业研究院智能机器人方向首席科学家,是中国自动驾驶领域的产业领军人物……
现如今以“遥遥领先”闻名的华为 ADS 智驾系统,发轫端到端,改写行业格局,就是从陈亦伦开始的。
董事长李震宇,获得过华为最高荣誉嘉奖,后担任百度集团资深副总裁,掌管百度阿波罗自动驾驶事业群多年。
但即便是创业首秀,陈亦伦和李震宇也谢绝了自己站到台前来分享,而是希望让更多人感受到年青人的天才和光芒——这个年轻天才指向很具体:丁文超博士,李震宇说:“有时候我还在啃论文的时候,丁博几句话就讲清楚了,而且直接给出了代码。我是丁博的粉丝。”
丁文超,它石智航的联合创始人,担任首席科学家,生于 1993 年,是华为“天才少年”计划的首批入选者,并且被派往了挑战最大的自动驾驶军团,从 0 到 1 主导了华为 ADS 智驾端到端决策网络……
后来返回学界,从 0 到 1 搭建了复旦机器人系统实验室,打造了复旦首个人形机器人。
此外,陈亦伦还介绍了另一位量产工程化大神:它石智航的联合创始人、首席架构师陈同庆。
陈亦伦笑称,内部把陈同庆称之为“兵王”,因为他带出过很强的规模化产品量产团队。这位能征善战的“兵王”陈同庆是清华大学博士,国家重大专项首席科学家,空间感知首席技术专家,深耕工业制造、AI、自动驾驶、机器人等产业,引领多个产品成功商用。
这些大牛们聚在一起,它石智航就此启程了。
我问丁文超,决定入局具身智能创业,Why Now?
他说感知到了时代的召唤。时代在呼唤一支技术创新、工程化经验、软硬件一体具身团队。
△丁文超博士,它石智航联合创始人&首席科学家
(量子位与丁文超博士展开了一场独家长对话,下文为对话节选,并做了便于书面化阅读的编辑和整理)
对话它石智航丁文超
“打造一个《星际穿越》里的 AI 机器人”
量子位:我们从最初始的问题开始吧,它石智航(TARS)是一家什么样的公司?你们要做什么?
丁文超:它石(TARS)是一家什么样的公司,可能从名字也能窥见一二。首先名字来源于《星际穿越》中的机器人。其次这个机器人非常智能可靠,协助主角一路过关,非常可信。
但 TARS 也是缩写,代表我们的出发点:Trusted AI and Robotics Solution——可信赖的 AI 和机器人解决方案。目前业内现状也有不同的具身智能公司,有做本体的,有做大模型的,也有关键零部件,但还缺少一个真正可信赖的 AI 机器人方案。
量子位:怎么理解“可信赖”?
丁文超:我能在各种场景里信任这个机器人,不论是在工厂,还是家庭生活场景,都能帮你完成各种各样的事情。就像自动驾驶系统一样,你放心地把方向盘交给它。
量子位:这个路径如何实现?
丁文超:路径也写在了 TARS 名字中,实现这一目标,首先需要强大的 AI 能力,其次必须能够实际应用到实体机器人身上。所以我们归纳起来,可以从三个维度展开讨论——超级算法,超级本体,超级应用。
超级算法,就是打造人类智能水平的具身技术模型。超级本体就是机器人身体。超级应用就是核心场景下的爆点应用。
具身智能领域,有些公司只做算法,有些做本体,但我们从一开始就构建全栈,目的还是希望能把解决方案做好,做可信赖的 AI 机器人解决方案,就需要全栈。
从投入来说,目前最核心的还是两手抓:一方面是构建超级算法,另一方面是有一到两个爆点应用可以打穿。
我可以先讲具体应用场景,倒推分享更抽象的算法挑战。
应用来说,比如有一个场景是汽车生产制造中工厂中的柔性操作场景,目前具身智能整体干得还不好,没有方法论,或者局限在一个很小的场景。所以只有把柔性物体操作做得很好,才能真正实现产线级生产力,真正实现工厂各个角落的自动化。
柔性物体的问题为什么难?主要还是你一碰这个线,它会随着你的运动而形变。不像你碰刚性物体如电脑,只是把它移动到其他位置。柔性物体比如这张餐巾纸,你一碰它它就形变,你的动作其实影响了整个环境,所以面对柔性物体的操作,本质就是不仅要知道自己怎么动,还要知道动了之后环境世界会怎么演化,需要对变化做变化。
自动驾驶里也有类似的问题,拥堵场景下你加塞,你动别人也会动,原本你旁边是没有空间的,但你强行挤出了一个空间,这个过程就是改变了原来的世界,还要对这个改变做预测和规划。
所以这背后牵扯到了我们认为最关键的技术核心,我们把它称作:AI World Engine。
AI 世界引擎主要预测两个关键因素,第一是看到这个场景后采取什么样的行动,第二是建立一个模型,模拟行动后世界会如何变化。
目前这样的模型极为稀缺。因为很难,首先需要模型架构上的创新,其次数据能力上也需要创新。训练这种模型不是少量数据可以实现的,我们按照第一性原理来推,我需要“精确知道我做了什么动作”的数据,这样的数据反映我做了什么,还反映客观环境怎样变化。
动作本身的数据并不难采集,但环境变化的数据很难。你可以用摄像头捕捉一些间接的观测,但客观世界里物理规律在 3D 空间的变化,很难捕捉和预测。
而只有大量的这样的数据,才能支撑训练 AI 世界引擎。
量子位:所以关键依然是如何获得你们想要的数据?
丁文超:按照第一性原理,你想要达到人类水平的具身智能,要获得人类水平的认知世界或行动能力,相应的数据也需要从人类身上来,从人身上找答案。这会是我们区别于业内其他公司的地方。
现在怎么采集数据?带着 XR 眼镜或者手柄遥控,人动,机器人跟着动,但这些数据采集方式都是“以 Robot 为中心”的。我不认为这是通向具身智能的正确道路。
智能汽车可以类似启动,因为没有智能的汽车也可以销售靠影子模式构建数据飞轮,但没有智能能力的机器人不会有人买单,所以如果靠要人类遥控操作产生数据去训练机器人,甚至遥控操作出来的数据还不如人类水平,相当于把人套在机器躯壳上,实现的技术肯定是降级的。
所以我们的思路是以人为本源,才能达到人类水平的具身智能。
量子位:强化学习在其中是什么作用?
丁文超:单纯靠端到端是达不到可信赖的,单纯依靠模仿人类远远不够,不仅要模仿人的动作,还要学会应对环境变化,环境变化之后的动作变化,结合强化学习,你才能最终实现可信赖的具身智能 AI。
“AWE 是具身版 GPT”
量子位:所以它石的具身技术模型究竟是什么?
丁文超:我们的核心技术引擎就是 AWE——AI World Engine 世界模型 ,可以说 AWE 就是具身版的 GPT 模型。
量子位:相比于 GPT,AWE 的打造最大挑战是什么?
丁文超:首先是数据。GPT 的互联网语料数据相对容易获得,但具身的数据很难获取,不光是简单的图像和视频,还需要操作中的动作,动作类数据很稀缺。
其次跟 GPT 相比,AWE 需要有很强的空间感知能力,因为具身智能机器人需要执行真实世界的具体任务,缺乏空间感知能力一定不 work。物理 AI 自然需要被定义在物理空间内,所以空间的概念是非常重要的。
语言不需要空间感知能力,你跟 ChatGPT 对话,它缺乏空间感知弄错一些数据问题不大,但具身智能不行,从一开始就需要有很强的空间感知能力,这也是业内没有被很好突破的难点。
有些具身大模型简单粗暴套 LLM 的逻辑,把图像变成语言一样的 token,然后让大模型输出动作……这其中缺失很多东西,缺少空间感知相关的能力,导致目前也没有真正好用、可信赖的具身大模型出来。
量子位:做好具身大模型就需要强空间感知能力,空间感知能力依赖于数据……
丁文超:是,所以我们致力于打造一家成功的具身智能公司时,就明确了一定要有自主可控的数据闭环。这个逻辑和自动驾驶一样,几乎没有成功的自动驾驶公司靠外部采集数据而获得成功,一定是需要数据闭环机制。如何打造一个完整的数据闭环,这个方面,我们有非常强的经验。
之前做自动驾驶产品落地的时候,每天接触最多的就是数据闭环的问题,如何在数据雪球开始后,根据信号迭代模型和网络,再进一步迭代数据。
量子位:有了数据如何训练好空间感知能力?
丁文超:这是我们团队核心技术能力之一。为什么空间感知能力之前没有很好的模型,我认为是大家建模的时候太粗暴,比如认为基于过去的图像和视频,就能预测未来,就认为模型具备空间感知能力了。但实际不是,视频预测模型学会的空间感知能力,可能很间接。
比如大家现在可能会刷到 AI 生成的短视频,看起来逼真,但很多小细节可能在违反物理定律。或者前后一致性的问题。
我们的解决思路是4D 空间对齐,在具身智能领域,3D 空间操作之外,加入时间的维度,引导 AWE 预测整个 4D 空间的变化。这实际上展示了模型学习和理解空间感知的能力。
为什么其他人无法做到这一点?首先可能是尚未意识到重要性。其次是训练这样的模型,必须要有强大的自动化标注能力作为支撑,以及有对应的训练数据资料。
空间感知能力需要模型学会,它不会灵光一现涌现,需要你教小孩子一样,先有监督学习,只不过这个监督学习主要是数据自动化标注获得。数据自动化标注的能力、场景重建的能力实际非常有门槛,做好了这个才能设计好整个模型架构,设计模型学习的任务,而这条路我们在自动驾驶工程项目中获得了经验。
量子位:怎么理解数据的自主可控?
丁文超:具身智能的数据来源大概有这样几种,一是买数据,但供应商的数据参差不齐、有些噪声还很大,或者动作和图像同步没做好,最后会限制模型的能力。
另一种是自己采集,比如在空间里设置场景,然后工程师通过摇杆操作,人动、机器人跟着动,学习一些任务。但这样的场景采集的数据是自主可控的吗?我觉得不是,多样性太弱了,你很难相信这样环境训练出来的模型能够泛化到家庭场景…
我认为数据的自主可控,核心还是你自己去架构整个数据采集的机制和流程,保证可扩展性。这个数据采集机制能够到每个人身上,不受限于机器人本体,可以忠实地记录真实世界,记录人的方方面面,记录人干的各种各样的事情,以及作用于周围环境后引发的变化。
量子位:比如说咱们所处的这个房间空间,把里面的一切都记录下来成为数据?
丁文超:不是,我认为数据的问题不是在于对房间建模是否精细,核心还是场景,真正的智能涌现不会来自一两个这样场景里的数据,你只会容易过拟合,你想让具身智能机器人学会操作水瓶,不能局限于这个桌子上,得让它见过各种场景、角度、形状得水瓶。
这听起来是一个简单的任务,但你没办法在一个房间里把所有的排列组合都搭建出来,成本很高,效率很低……我认为正确的数据获取方式,应该是和人绑定。
量子位:所以你认为具身智能大的路径是有共识的,但具体实现上,算法、模型和架构的质量,大家还是会有差距的?
丁文超:或者这么去理解,大趋势都在逐渐收敛成共识,大家现在都意识到要用端到端大模型的方法去支撑具身智能,已经没人再做小模型或模块化了,但即便如此,认知水平的差距、工程化实操水平的差距、数据迭代的差距,最后都会造成结果上的差距。
自动驾驶现在的方法论很透明了,端到端网络、Transformer 架构、车的数据也很直接……但真正能够成功实现端到端自动驾驶的玩家并不多,对吧?
量子位:想到还要能做到……
丁文超:所以我认为现阶段时代是在呼唤一个具身智能团队的,这个团队既能把新技术用起来,还能够做好工程化。
之前可能有团队做研究做得很好,发很多论文,展出各种小的 demo,但真正拿出可靠的产品化方案,可能还没有,要么可能是对前沿技术 follow 不足,要么是工程化能力不够。
所以某种意义上,我认为时代在呼唤能够兼顾前沿技术和工程化能力的团队,就像早期自动驾驶落地一样,这是我们现在出发的原因。
“时代在呼唤一个技术创新与工程化并重,软硬一体的团队”
量子位:我一直有个疑问,你们感知到了时代的召唤,但具身智能实际是阿兰·图灵时代就提出的概念,是什么原因让现在可行了?
丁文超:我觉得之前已经有了很多的铺垫。首先就是自动驾驶被解决得很好,如果大家还都陷在自动驾驶苦海,还在一个个写规则代码,那是不敢碰具身智能的。所以自动驾驶是一个明确的信号,你可以依靠数据驱动,端到端网络,实现可靠的自动驾驶落地应用。
第二是大语言模型的成功,让大家意识到智能的上限可以这么高。原先自动驾驶是很垂直场景的 AI 落地,但大语言模型的成功,让大家相信通用智能的存在,并且 ChatGPT、豆包、DeepSeek 这样的应用,每一个人日常都能感知到它的能力了。自动驾驶也是,都开始标配了。
我们公司“它石”也可以从它山之石来理解,就是具身智能浪潮本源来说,很多进展和资源都堆积到这里了,物理世界的 AI 化大势所趋,开始要替代信息世界的 AI 成为主旋律了。
具身智能这个概念我觉得相对拗口难解释,实际上我更喜欢物理 AI,更加直观。
最后,很多供应链和工具生态都相对成熟,可以支撑推动时代浪潮。进展也是显而易见的,特斯拉的机器人第一年还是概念不能走,第二年再出现就能够独立行走可以抓球抛球……说明技术和资源都在加速发展。
量子位:语言智能之前被称为 AI 皇冠上的明珠,自动驾驶也被称为 AI 皇冠上的明珠,现在两颗明珠合而为一了。
丁文超:确实。两股能量汇集也需要有出口。
量子位:刚才谈论了数据的重要性,也有观点会强调仿真和合成数据,你怎么看?
丁文超:我认为对仿真数据的依赖是一个行业早期不可避免的过程,但问题是为什么需要仿真数据?可能还是没有自主可控的数据流程。如果可控、可泛化、可扩展的真实数据不可得,就会寄希望于仿真。
但我们的基本判断是真实数据的优先级永远高于仿真。
如果能确保海量真实数据的时候,仿真的优先级相对较低。仿真数据更适合项目的早期阶段,模型冷启动,但在后期的作用非常有限。
你只要做过仿真器,就知道里面有超级多的魔鬼数字,本质是你在用代码重构真实世界,这是很难的事情,而真正能够重构世界的是 AI 大模型,所以我们叫 AI World Engine,如果能够学习到动作和环境变化,AWE 可以扮演仿真器的决策,
而事实上 AWE 远远超越了仿真器的概念,我们是靠 AI 方法去学会的,而不是编程实现的。
量子位:那基于真实数据去构建 AWE,参数的量级是一个怎样的问题?
丁文超:这也是一个波动的过程,具身这个领域此前也有行业案例证明不是必须使用如此大的模型才能达到它展现的水平。我认为具身界的 DeepSeek 也会很快出来。好的数据不挑网络,核心可能还是没搞清楚数据。
“行业首创 Human-Centric,对于 Scaling Law 至关重要”
量子位:问题是比如 GPT 可能干到了很大参数发现了智能涌现,然后 DeepSeek 才能用更小的参数实现这样的能力。但具身智能如果没有这个过程…
丁文超:具身智能确实一口吃不成胖子,模型规模和智能能力是相辅相成的。但语言模型的特点是天然数据量很大,足够饱和,所以你早期增加模型规模可以展现 …
但Scaling Law 我认为有三个维度:
- 第一是数据维度的 Scaling Law;
- 第二是参数规模的 Scaling Law;
- 第三是推理时上的 Scaling Law。
因为语言模型天然可以通过爬虫获取数据,所以跳过了第一个维度的 Scaling Law,直接被看到的就是参数规模和现在的推理时间上的 Scaling Law。
具身的问题是被卡在了数据的 Scaling Law,然后就没办法谈模型规模上的 Scaling Law,比如目前看到有些行业具身智能机器人展现的是在房间里抓抓取取,这些很显然并不需要多么庞大的模型参数。
那具身的话,我认为首先是启动数据的 Scaling Law,然后会看到模型规模上的,接着强化学习。
所以我认为,具身一开始可能不是一个很大的模型,比如 7B 或者 30B 就能很强了,等数据饱和到一定程度,再扩大模型参数,再进一步变强,然后再接着做强化学习达到 next level……这三个 Scaling Law 都探索完成,真的有可能达到 AGI。
因为具身或者说物理 AI 和语言——信息 AI 是互补的,这二者最后汇集起来真的可能会导向我们说的 AGI。
所以我认为模型规模大小,现在还不是最关键的因素,不是瓶颈。
量子位:你提出的 Human-Centric 对于 Scaling Law 的意义是什么?
丁文超:我们在行业开创了 Human-Centric 具身数据引擎,这是一个全新的技术范式,对于 Scaling Law 至关重要。它可以实现真实世界具身数据获取能力的跨越式突破,我相信这将为物理世界 AI 的持续发展注入强劲驱动力。
量子位:我们谈到了 AGI,在信息领域,目前大概的共识是每一个领域都达到人类博士的水平,那在具身智能领域,如何定义 AGI?
丁文超:需要有场景。
量子位:那为什么不先在某个场景,比如工厂中的工作场景打造一个行业模型,而是一开始就打造一个通用的 AWE 世界模型?
丁文超:这是一个选择问题,我一直认为人做事情,往往是求上得中,求中得下,求下而不得。如果一开始就做一个工厂中工作场景下的事情,能做成也能做得很好,但人终究是有局限的,你很容易过拟合。
后面从工厂场景切换到生活场景,有些 GAP 你就可能跨越不了了。
所以从出发点来说,我们肯定是要用通用的方法来做具身智能,不管开始落地的场景是一个还是两个,但方法一定是要通用的,适用于所有的场景,只不过可能刚开始会有数据分布上的调整,哪个场景多一些,哪个场景先不那么多,只是为了让性能在具体场景下更好。当我开始不同场景迁移的时候,不需要重新写代码或者调整架构。
量子位:GPT 展现的能力涌现,经历了 1.0、2.0、3.0…你们的具身大模型,也需要经历这样的过程吗?
丁文超:我们构建第一个 AWE 模型,可能版号就是3. 0。我们希望直接对标的就是 GPT-3 展现的能力,GPT-1 和 2 的时候展现了一些智能信号,但不是很 work,等到 GPT-3 的时候或者说 3.5 的时候真正把数据和规模达到了一定程度,也很系统地研究了 Scaling Law,打造了垂直的 ChatGPT 应用,真正展现可用了。
我们也是类似逻辑,先打造 AWE3.0,把数据和工程化做好,后面针对垂直场景做优化,就推 3.5 版本,再后面推强化学习,可能也对应以o命名…目前规划了这三个版本。
量子位:这三个模型版本,机器人本体都是一样的吗?
丁文超:我们准备设计一个模块化的本体形态,核心判断是本体形态会在很快的范围内收敛形成共识,唯一不确定的是灵巧手形态。
但大的变化可能不会那么大了,虽然我们一开始还是会在本体设计上追求全栈,自己组装,但后面会不断收敛,利用产业分工和供应链能力。
量子位:有些玩家可能更加专注于“大脑”打造,本体有共识了放进来…
丁文超:我们对本体从一开始自研,核心还是希望真正了解和定义每一个硬件模块需要的算力、传感器方案,目前行业也有做得不错的硬件玩家,但这类机器人不一定为我们的需求和场景而生,我们需要自己做一做,才知道如何做整体的设计和调整。
“自动驾驶分级标准不适合具身智能,但有两大维度参考”
量子位:你们团队都有自动驾驶落地背景,自动驾驶按照技术能力有 L0-L5 的分级,一定程度上指导了落地,你觉得具身智能领域需要这样的分级吗?
丁文超:很多人拿这个来比较,但我认为套用自动驾驶的分级来指导具身智能是不合适的。因为自动驾驶的分级本质是划分权责,L3 以下是人类司机责任,L3、L4 又是限定区域 ODD 扩展……L3 允许接管,L4 不允许接管。
但对机器人来说,它从第一天开始就需要具备一定的自主性,比如你买了一个机器人在工厂应用,它如果出错了,这个机器人就需要负责任。直接跳过了自动驾驶 L3 之前需要人类司机负责任的阶段。
至于具身智能怎么划分,我更倾向于技术拆解出来的两个维度。一个是自动化维度的宕机率,多长时间宕机一次,或者可能类似自动驾驶里的 MPI——走多长公里不会跌倒。
另一个是智能化维度,按照掌握的技术数来衡量。
我们的目标是打造一个基本不会宕机的机器人,然后今年、明年推出的初代产品,可以在一些柔性技术能做得很好,可以支撑商业化场景落地。
量子位:这两个维度,也有人会用大脑、小脑来类比,专门打造两个模型。
丁文超:是的,但可能越往后越会发现大小脑之间没办法分的那么开。比如行业有能做回旋踢的机器人,我觉得非常好,证明小脑代表的运动能力非常强了,但有个问题是那个机器人眼睛里到底有没有那根棍子?是看见了棍子去踢,还是它按照一个模式做出了 720°回旋踢,然后有人在合适的时间把棍子放到合适的地方配合着让机器人踢走?
更进一步的问题是这反映的是大脑能力还是小脑能力不足?其实这恰恰是大小脑完全分离导致的。
量子位:所以从一开始你们就不会把大小脑分开训练或者做这种划分?
丁文超:可能刚起步阶段,为了研发进度,可能会稍微区分,但终极上肯定还是要融合统一的,统一的一个架构。
量子位:我默认你们就是在打造人形形态的机器人,你们确实是吗?
丁文超:形态的问题,我觉得马上就不会再被讨论了。之前讨论形态,主要还是人形形态能力,一直没有深入人心。
但这个过程展现了形态的本体的成熟度。但具体到是不是一定要有两个脚掌,可能不一定,人也不是时刻需要两个脚掌,比如骑电瓶车的时候。下肢可能匹配使用的工具,配合底盘使用。
上肢的话是不是人形这种操作能力更加能够达到人类水平,我觉得从第一性原理来说,有很有可能是的。
量子位:人形形态是因为对万物之灵人类的模拟,还是说做好人形就能做好其他形态,像你刚才说的求上得中…
丁文超:我倾向于后者,具身形态以后的定义可能还是在拟人形,“拟”这个字也挺微妙,放开了下肢自由度,但没有放开上肢。
反向思考的话,如果你的目标场景需要 Scale 数据、Scale 模型…你需要什么样的本体才能匹配得上需要的 AI 能力 skill?就会发现垂类、特别专一的设计没办法匹配,在某个时间点就需要重构本体甚至扔掉换更好的,最终这样的过程后,迭代到的可能就是一个拟人形的样子。
量子位:所以为了这个大脑,具身机器人也需要有这么一个身体?
丁文超:是的,我认为这就是具身的含义,你需要有一个躯体去承载聪明的 AI 大脑。躯体长什么样,会跟自然进化一样,某种程度是重演进化史。垂类也会进化出垂类的形态,占据垂类市场,但通用的会占据最大的市场。
量子位:在自动驾驶领域有升维迭代进化的概念,从 L2 做到 L4,但具身里好像不谈论这个,从一开始就是“L4”?
丁文超:核心还是具身智能里,从一开始就没有人给机器人兜底。它 work 不 work 都是一瞬间的事情,人是很难接管的,机器人没有驾驶舱,你也永远不可能让它永远处在人类的监督之下。
量子位:好像也不会在用不用激光雷达上吵来吵去?
丁文超:在自动驾驶早期,核心还是 AI 能力不够,算法对用激光雷达还是纯视觉,对架构和代码改变是很大的,但今天都是神经网络端到端的方式,你接激光雷达数据还是图像传感器数据,都是前融合了,区别不大。
量子位:最后影响的核心是成本?毕竟激光雷达始终要贵一些。
丁文超:成本是一方面,另一个也有数据效率的原因,如果激光雷达可以把几何扫得很好了,一定程度上也能减少你网络学习的难度,但同时也会带来数据多样性的增加,或者说数据异构性的增加。纯视觉就同构,加激光雷达就会多一点,所以有优点也有挑战,就看不同公司的取舍。
量子位:那芯片算力是一个问题吗?
丁文超:算力不是问题,现在的自动驾驶车载算力够用。
量子位:是不是意味着以后也是云端大模型,终端放蒸馏小模型?
丁文超:这是以后实际部署的问题了,可能会有很多工程化的方法。云端是不是有模型,肯定有,边端也会有,然后二者协同配合。当你这个机器人没有网络,长程思考就需要终端自己完成,有网络就云端,可能会影响到思考速度的快慢。或者也类似现在快慢模型,有一个跑得快的模型做精细的闭环操作。
算力的分配会结合网络场景来思考,最极端的场景,没有网络,机器人可能表现得没那么聪明,但它也有一些基本的能力,这可能就是将来的一个趋势。
“具身智能里的分歧和争论,持续不了太久了”
量子位:所以当前具身智能领域,你认为存在技术路线分歧吗?
丁文超:我觉得你刚才问的几个问题,其实都是分歧。
第一,要真实数据还是仿真数据?
第二,靠大小脑合一还是分离式架构?
第三,你数据到底长什么样子?本体什么形态?
第五,你落地场景到底怎么样?应该先做垂类还是通用。
这些都是分歧或者争议的话题。
量子位:大家都想相互去证明?
丁文超:是的,但我觉得这些争议不会持续太久。
量子位:会随着什么而结束?
丁文超:随着具身 AI 能力的提升而结束。因为这就是一个方法论,只要你是对的,提升就会很明显。
就好像自动驾驶早期都在各种争论,预测和决策应该是什么关系,感知和 PnC 之间什么关系…技术专家在吵,网友也在吵,包括到今天一段式好还是两段式好也还在吵…
但最后你会发现,技术方向路子一旦对了,争论慢慢就平息了,讨论问题没有意义,只想怎么更快缩短差距。
量子位:看疗效了,看你最后交付的东西。
丁文超:对,是的,具身也一样。比如有谁交出了最稳定的自动化程度,效果一出来,很快方法论就会被归因出来。
量子位:现在业内玩家也会不时放 demo,或者展会上秀能力,你会重点关注什么?
丁文超:其实我不太会看展会秀的能力,因为太容易是过拟合下的产物。我倾向于能在哪里看到机器人,这是我的金标准。
量子位:实际落地的场景?
丁文超:对,就是看机器人到底在哪里实际工作,这就是以后的新标准。比如现在有一些机器人,哪怕没有什么大脑能力的展现,但运动能力很不错,大家可以买来用或者玩,挺成功的。
量子位:目前一些机器人有这样的定位,本体做得很好,以后等一个 DeepSeek 或者安卓的大脑,一下子让它获得很强的大脑能力。
丁文超:那不就是我们要做的事情吗?
量子位:但你们会软硬件一起做。
丁文超:早期是这样,但最终是不是也会有一个东西可以抽象出来?
我也在思考这个问题。最终是不是真会出现一个Robot OS,或者说物理 AI OS,它有很多真实世界的接口,然后你抓取东西的能力就是一个 API,和现在虚拟世界的操作系统 API 一样……你通过补充数据就可以创造新使用,而不是再编码……
如果可行,那这个东西的价值太大了。可以快速落地各种场景和产品。
量子位:我还想问的是,假如你在帮 VC 做技术尽调,什么样的具身智能项目拿不到你的投资推荐?
丁文超:我觉得如果这个节点还在讲概念,没有实际落地能力的人,我不认为能拿到投资。这个阶段已经不像三年前,三年前可以靠理想梦想,但现阶段要靠实际效果或者产品说话了。
量子位:但你们现在刚入局,也没有产品,却依然吸引了最大的首轮融资。
丁文超:我想核心还是我们这个团队做过成功的产品,起码能证明我们有产品化经验,有扎实的功底把东西做出来。而且我们对具身智能的理解和认知,或许也是大家对我们的信心。
我相信投我们不仅仅是因为一些名头光环,核心还是大家相信具身智能的工程化我们能搞定。我们这个团队的构成,之前交付了中国最好的智能驾驶产品,交付了中国最好的 Robotaxi 产品。
所以可能大家需要这样一家公司,它能够在具身智能领域打造类似的产品,而我们打造过,可以被相信。
量子位:这也可以作为对潜在候选人的说服,为什么你们这艘船值得加入?
丁文超:我们中文名“它石”,对技术人才也是一个吸引的点吧,踏踏实实把事情做好,不要花里胡哨。然后融合很多技术要素,它山之石。
融汇自动驾驶、大模型、前沿 AI,然后把它们吸收到你工程化的宝贵经验里。
如果你相信具身 AGI 的路径已经打开,那这绝对是一个起码 20 年内为之奋斗的事情,而这个过程中如果有一群比较靠谱的人在做,加入对你的个人认知、技术能力成长还有其他各种方面都有帮助,为什么不加入我们呢?
量子位:我在准备的时候,有一个问题是具身智能这个领域的 GPT 时刻,但刚才你说 AWE 第一个版本就是 3.0 了……所以如果具身有这么个时刻,我们可以怎么检验?
丁文超:该怎么定义具身智能的 GPT 时刻是一个好问题。我想或许标志性事件就是具身智能机器人用一个比较 AI 的方法完成了现实世界里哪怕一到两个任务,我觉得这就是具身智能的 GPT 时刻。
回过头来,ChatGPT 核心就是用一个很 AI 的方法,基于学习预测下一个 token,很简洁很干净,能回答问题了,它就干好了这一件事情。
量子位:所以可以理解为如果你们机器人能在工厂里把任务解决得很好,就可以说它是 GPT 时刻?
丁文超:对,是的,足够具体具象了。
(另外,丁文超博士透露,他们的战舰正在紧锣密鼓招募技术人才,如果你希望拥抱最具挑战和前景的 AI 创业,欢迎用简历投票:hr@tars-ai.com)