成立1年估值超100亿、红杉软银争投,这家人形机器人公司做对了什么?

  摘要

  机器人行业的「GPT-3」时刻已经出现?

  具身智能,或者说人形机器人,现在已经成为仅次于 AI、最热门的投资项目。无论是 OpenAI、英伟达或者是微软,都在砸下重金投资人形机器人团队。

  现在,一个种子选手,正在获得巨头们的青睐。

  近日,一家名为 Skild AI 的公司,宣布完成 3 亿美元的 A 轮融资,投资者包括杰夫·贝佐斯、日本软银集团、红杉资本和卡内基梅隆大学等,使该公司估值达到 15 亿美元。

  这家公司才成立不到一年,由两名机器人领域的大学教授创立,其团队正在构建一个「可扩展的机器人基础模型」,作为各种类型机器人和各种现实应用场景的通用「大脑」,同时还在构建可以改装到机器人硬件上的系统。

  该公司称,「我们的长期目标是开发基于物理世界的通用人工智能(AGI),挑战 AGI 只能从数字知识中产生的流行观念。」

  投资人为此迅速投钱,认为机器人行业的「GPT-3 时刻即将到来」

  Skild AI 到底做对了什么?它能实现 AI+ 具身智能的野心吗?

  「机器人大模型」

  Skild AI 由卡内基梅隆大学教授 Deepak Pathak 和 Abhinav Gupta 于 2023 年 5 月创立,正在开发基于物理世界的智能系统,构建机器人基础模型——可以理解为「机器人大脑」。

  他们在做的东西有什么特别?传统机器人技术侧重于收集特定数据,来训练机器人以完成特定任务,而 Deepak 和 Abhinav 则利用大规模数据,通过基于 Transformer 的自适应架构构建基础模型,想要创建的是一个通用、鲁棒且具备涌现行为的机器人模型。

  这家公司称,自己正在突破机器人数据壁垒,其训练模型的数据量「是竞争对手模型的千倍以上」。与那些为特定应用垂直设计的机器人不同,Skild 的模型作为各种机器人形式、场景和任务的「通用」大脑,涵盖操作、移动和导航等功能。

  在现实世界应用中,从在恶劣物理中具备韧性的「四足机器人」,到能够进行复杂家庭和工业任务的「人形机器人」,该公司的模型据称都能用上。

  那么,在理论上,这种「机器人大脑」可以为波士顿动力公司的四足机器人「Spot」以及 Agility Robotics 的人形机器人「Digit」提供「动力」,尽管公司尚未宣布具体合作伙伴。

构建「通用的」机器人基础模型| 图片来源:Skild AI

  Skild AI 称自己的使命是「通过开发首个真正智能的实体系统,彻底改变未来的体力工作,旨在提升生产力和挖掘人类潜力。」愿景是「建立扎根于物理世界的通用人工智能(AGI)」。

  尽管全球不少人都担心 AI 或机器人抢工作,做机器人的公司普遍还是喜欢说自己要解决所谓的「劳动力短缺问题」,抑或者更高远的「解放人类」。

  Skild AI 显然也不例外。

  他们对外强调的说法是,以美国为例,目前面临着严重的劳动力短缺,空缺的工作岗位比失业人数多出 170 万个。医疗保健、建筑、仓储和制造业等行业受影响最严重,预计到 2030 年将有 210 万个制造业职位空缺。

  此外,许多这些工作对人类来说可能是危险的,例如石油钻井平台和机器房。而 Skild 的模型使机器人能够适应在危险环境中执行新任务,而不是由人类执行这些任务。

  Skild AI 的联合创始人 Abhinav Gupta 称,「通用机器人能够在任何环境下、安全地执行任何自动化任务,并具备任何类型的实施形式,我们可以扩展机器人的能力,降低其成本,并支持严重人手不足的劳动力市场。」 

Skild AI 称该大脑可以适应各种硬件和任务 |图片来源:Skild AI

  机器人行业的人常说「机器人技术很难」,这几乎成了支配该领域的无名自然法则之一。

  而且,不少人认为机器人是一个硬件问题,但 Skild AI 的创始人却认为这是一个软件问题

  Skild AI 强调「规模是关键」,并表示他们正在发明最前沿的机器学习算法,「重点是利用规模的力量,在任何环境中提供无与伦比的鲁棒性。从建筑工地到工厂再到家庭,Skild Brain 能像人类一样适应非结构化环境。」

  这个「Skild Brain」,就是所谓的大脑,据称是「首个可扩展的」机器人基础模型,可以适应不同的硬件和任务,「在模型设计上具有鲁棒性。」

  该公司还披露了一个 Skild AI 移动操控平台,由 Skild Brain 提供动力,在这个平台上「可以开发用于机器人的高级 AI 算法和应用程序」,他们想要「使机器人操作像调用 API 一样简单」。目前,该平台尚未开放,仅允许感兴趣的开发者注册,加入早期访问等待名单。

  此外,他们推出了一个安全/检查机器人平台,称提供自动化视觉检查、数据收集或巡逻任务的解决方案。

Skild AI 的创始团队 |图片来源:Skild AI

  今年 7 月,Skild AI 宣布完成 3 亿美元的 A 轮融资,融资由 Lightspeed Venture、Coatue、软银集团和杰夫·贝佐斯(通过 Bezos Expeditions)领投,Felicis Ventures、红杉资本、Menlo Ventures、General Catalyst、CRV、亚马逊、SV Angel 和卡内基梅隆大学参与了本轮融资。这次融资使公司的估值达到 15 亿美元。

  Skild AI 表示,将利用这笔新资金改进其 AI 模型,同时追求商业化落地部署。长期目标是创造一种「具有与人类同等能力」且「扎根于物理世界」的 AGI。

  其首席执行官兼联合创始人 Deepak Pathak 称:「我们相信 Skild AI 代表了机器人技术扩展方式的一个转折点,具有改变整个实体经济的潜力。」

  印度机器人大神创业

  根据公司网站显示,Skild AI 正在招聘多个工程师岗位。目前团队包括来自 Meta、特斯拉、英伟达、亚马逊和谷歌背景的成员,以及卡内基梅隆大学的学生。

  两名联合创始人 Deepak 和 Abhinav,都曾是卡内基梅隆大学的教授,在机器人和 AI 领域有多年研究经验,以其在自监督机器人技术、好奇驱动的智能体和自适应机器人学习等领域的研究闻名。

  如果要量化其学术水平,他们两人目前拥有 150+ 的 H 指数,超过 90000 次引用。

Skild AI 联合创始人 Deepak(左)和 Abhinav(右)|图片来源:Skild AI

  Deepak 来自印度的一个小镇,在同龄人搬到大城市备战全国考试时,他留在小镇,仍然考上了印度理工学院(即 ITT),这是印度国内的最高学府,这一成就还登上了当地头条。

  据称,在印度时,由于缺乏条件,他还曾在家里用纸手写代码并检查,然后在当地咖啡馆有限的上网时间里运行他编写的程序。后来这个印度的「小镇传奇」就赴美国读博,期间加入 Facebook AI 研究院(FAIR)做研究,还创办过一家被收购的初创公司,后来选择当教授。

  Abhinav 则是卡内基梅隆大学的终身教授,和 Deepak 同为印度裔,曾是 FAIR 机器人研究组的创始成员和研究负责人。他和 Deepak 讨论了十年创业的可能性。2023 年初,他们看到了自己领域技术进步的加速,意识到是时候出来大干一场了。

  那么,他们看到的机会具体是什么? 在追求为机器人构建通用智能的过程中,关键挑战一直是如何在没有大规模数据的情况下,构建一个大型模型。

  与大型语言模型不同,机器人领域没有现成的互联网数据。因此,他们探索了从现有资源中学习的不同策略:在线视频、远程操作、现实世界数据、模拟等。

  2015 年,他们首次实现了机器人数据的 1000 倍扩展,随后几年,他们尝试了人类远程操作和低成本机器人远程操作平台。2017 年,他们提出了著名的好奇心驱动学习算法,用于构建能够自主探索和学习的智能体。2021 年和 2022 年,他们再次突破,采用大规模自适应 SIM2REAL(虚拟到现实世界训练)策略,并在机器人学习会议上获得最佳机器人系统奖。

  这些成就,奠定了 Skild AI 的目标:一个通用模型,能够在任何环境中完成任何任务,而无需特定训练。有投资方认为,如果 Deepak 和 Abhinav 能实现这一目标,他们将取得类似 GPT-3 的突破,结果可能适用于几乎所有领域。

  机器人的「GPT-3 时刻」?

  卡内基梅隆大学现任机器人研究所所长 Matthew Roberson 为他们站台背书称,「Skild AI 由站在机器人技术创新前沿的的专家创立,我迫不及待地想见证他们的尖端技术如何彻底改变行业,并延续卡内基梅隆大学在转化研究方面的悠久历史。」

  其他投资方也不吝吹捧,似乎对 Skild AI 的能力和前景充满信心。他们大多看中的是两名创始人对世界上一些先进机器人和 AI 实验室的贡献。

  在过去几年,互联网偶尔会被机器人极限跑酷、用手操控物体(包括开门和抽屉)、爬楼梯(无论是前进还是后退,室内还是室外)、以及自然流畅移动的机器人震撼一下,而这些进步,据称背后都可以追溯到两人的一些学术成果。

  有的投资人称他们是机器人技术进步的「催化剂」,认为「他们在将基础模型的核心原则应用于现实世界方面的创新,使行业走上了通用机器人技术的道路。」

  有的投资人提出,Skild AI 在构建机器人操作和移动的基础模型方面,「采用了真正可扩展的方法」,「他们革命性地改变机器人技术,从预编程机器人转向动态自适应机器人,这有可能颠覆整个实体经济。」

  还有投资方已经投资机器人公司超过 15 年,称 Skild 是其见过「最具远见的」,「他们正在构建的模型将在任何环境、任何硬件上执行任何任务。」

  在 Felicis Ventures 的投资人看来,开发通用机器人智能的竞赛已经开始,没有任何一个想法能像现在这样快速地动员资本和人才,通用机器人基础模型将成为这一链条中的关键环节。

  创造一个能够在任何环境中、任何形式上进行推理、规划和行动的「单一模型」,这个想法并不新鲜,一直是机器人行业想要夺取的圣杯,「这个想法的问题在于,几年前它根本不可能实现。而今天,它可能成为现实。」Felicis Ventures 的投资人如此称。

  「当我们第一次飞往匹兹堡观看 Skild 机器人实际操作时,我们简直不敢相信自己的眼睛。一个初创公司在如此短的时间内怎么可能取得如此大的成就?」

  「答案在于规模。大型预训练视觉语言动作模型(VLA)展现出与大型预训练语言模型(LLM)相同的涌现行为,正如在代数上训练一个 LLM 使其在西班牙语上表现得更好。」Felicis Ventures 的投资人认为「Skild 正在将这一理念推向极致。」

  Skild 正在做和想要实现的,就是通过所谓千倍以上的训练数据量,让机器人从没见过的任务也能执行到位,该投资人称已经看到了迹象。

  红杉资本的投资人也声明称,对 Skild AI 的团队充满「深刻的信念」,说他们「有潜力在现实世界中实现 OpenAI 在数字世界中所取得的成就。」

  信念的一个证明是,飞速给钱。见完创始人不到一周时间内,红杉资本就拍板决定投资 Skild AI,认为这个团队就是他们追求的,称「GPT-3 时刻即将到来,将为机器人世界带来巨大变革,就像我们在数字智能世界中看到的进步一样。」

  这些投资人认为,虽然关于 AI 对人类生活影响的讨论非常热烈,但迄今为止,大量讨论仍然主要集中在软件上,而将 AI 整合到机器人中则潜藏着巨大的机会,AGI 不是只能通过数字知识来构建。虽然一切都处于早期阶段,但利用 LLM、VLM 和代码生成的进步,机器人制造商有机会开发更智能的机器。

  「想象这样一个世界:一个 AI 机器人基础模型能够在任何环境、任何机器人硬件上完成任何任务。这将大大扩展我们可以构建的机器人类型,并且成本将比今天低几个数量级。」

  随着软件领域的 AI 成为巨头的游戏,以及将 AI 整合到机器人的前景和吸引力。

  一波 AI 热钱,已经转向机器人领域。