文有界 UnKnown
11 月底,黄仁勋在香港科技大学的博士学位授予仪式上,将人形机器人与汽车、无人机并肩列为未来会实现大规模量产的三种机器人。
这已经不是黄仁勋第一次在公开场合“力挺”人形机器人,在今年 3 月份的英伟达 GTC 大会上,黄仁勋曾与 1X Technologies、Agility Robotics、Boston Dynamics、Figure AI、宇树等 9 个人形机器人同时登台,发布英伟达人形机器人通用基础模型——Project GR00T。
▲黄仁勋在 GTC 大会上直播截图
在之后的多个场合里,黄仁勋都向外界传递着相同的观点:人形机器人将会成为人类生活里不可缺少的伙伴,它终将成为和汽车一样的主流产品。
在关于人形机器人未来在人类生活中重要地位的看法上,黄仁勋也与马斯克不谋而合。
马斯克也曾在 2024 年特斯拉股东大会上表示,未来“全世界每个人都会想要一个机器人 ”,他认为人形机器人和人类的比例,至少是 2 比1,甚至能到 1 比1,未来会有 100 亿甚至 200 亿、300 亿台人形机器人。在一次采访中,黄仁勋也坦言,“100 年后大街上将到处都是人形机器人”,马斯克则在X上默契地回复,“人形机器人普及程度将是汽车 10 倍”。
▲马斯克在X平台上与黄仁勋互动截图
黄仁勋也几乎成为除了马斯克之外,最卖力为人形机器人站台的科技大佬。但和马斯克更侧重于造出人形机器人本体、并将其应用于特斯拉的生产和劳动力补给上不同,黄仁勋更专注于做人形机器人的技术服务商。
英伟达机器人和边缘计算副总裁 Deepu Talla 在东京的一次会议上直言,英伟达瞄准的是一个由“数十万”家机器人制造商组成的分散市场,而不是由少数几家主要参与者主导的集中式智能手机市场,“我们为机器人提供平台,而不是制造机器人”。
那么,英伟达究竟想要做一个什么样的机器人平台?
打造人形机器软件生态
2021 年,波士顿动力曾发布一则 Atlas 的跑酷视频,在全球范围内第一次掀起了人形机器人的狂热。
在这则视频中,Atlas 可以轻而易举地在各种形状和坡度的踏板之间跳跃、奔跑、上下阶梯。但很多人都不知道,在这则惊艳世界的视频背后,是 Atlas 十多年如一日的训练。
机器人和人一样,要学会走路也需要经过无数次的训练,通过积累足够多的数据才能实现。对于早期的人形机器人而言,积累数据没有捷径,只能通过一次又一次的跌倒来完成。
所以在 Atlas 早期的训练视频中,我们会看到它身边时刻都跟随着好几个工作人员,以便在它“倒下”的时候及时检查零件。
但这个过程显然太过漫长,不利于人形机器人快速发展。为了提高人形机器人的训练效率,人们在 AI、大数据和云计算等前沿技术的基础上,建立了一套利用虚拟世界对人形机器人进行训练的方法。
通常来讲,人形机器人的训练,会经历一个从 Real2Sim(真实到虚拟)到 Sim2Real(虚拟到真实)的过程。也就是先从真实环境采集数据投入到仿真环境,让机器人在仿真环境里做充分学习和训练,再将其拉到现实世界里历练。
这个过程由于有相当一部分在虚拟环境中进行,因此不仅可以加快训练速度,还可以降低硬件损耗。
英伟达在人形机器人领域的第一个布局,就是搭建一套仿真训练设施,它具体包括人形机器人仿真训练场需要使用的虚拟场所构建、人形机器人与环境互动的仿真训练,以及人形机器人控制规划学习的仿真训练。
它们分别对应着虚拟协作和仿真平台 Omniverse、用于机器人行为仿真的平台 Isaac Sim、用于机器人算法训练与优化的平台 Isaac Lab。
▲英伟达人形机器人软件生态,有界 UnKnown 制图
用一个形象的比喻,Omniverse 就像一座城市,这座城市里有高楼林立的大厦、车水马龙的道路以及人类生活所需要的一切基础设施,而人形机器人就像生活在这座城市的人类一样,他们在城市之中穿梭、从事劳动活动。
Isaac Sim 就像是 Omniverse 这座城市里的健身房一样,人形机器人需要在这个健身房不断与各类运动器材进行磨合,这就对应着人形机器人与环境交互的能力训练,它们需要了解路径规划,比如怎么样才能正确抵达所需要的运动器材面前,并且了解每一种器材的使用方法,比如看到哑铃知道是用来抓取的、看到跑步机就知道是用来跑步的。开发者使用 Isaac Sim 来测试机器人在不同环境中的表现,不需要实际硬件即可验证机器人的动作和决策。
Isaac Lab 就像 Omniverse 这座城市里的图书馆一样,人形机器人需要在这座图书馆之中不断更新知识,它主要聚焦于算法开发与训练,为机器人提供决策和控制能力,允许开发者在虚拟环境中开发、测试和优化机器人控制和智能算法。
▲英伟达 GTC 2024 大会,Isaac Lab 环境里的 Digit
所以,Omniverse 是一个让机器人学习如何更好适应现实世界的地方,在这样的虚拟环境中,机器人可以进行智力训练和动作训练。基于 Omniverse,英伟达开发了机器人开发仿真平台和参考应用程序 Isaac Sim 和开源的模块化机器人学习框架 Isaac Lab。
总的来说,英伟达这一套人形机器人软件生态,能够为机器人数据训练提高效率、降低成本,让机器人可以不必在复杂的硬件环境中磕磕碰碰,在进入真实环境之前,能够先在虚拟世界里“练兵”。
在今年 3 月份的英伟达 GTC 大会上登台的 9 家人形机器人,就是这套生态的首批“种子用户”。
在这样一套仿真机制的配合之下,英伟达发布了具身智能通用大模型——Project GR00T,与迪士尼动画《银河护卫队》中的小树人格鲁特同名,寓意着人形机器人可以如动画中的格鲁特一样拥有超凡的力量。
GROOT 使得机器人能够理解和处理自然语言,并且具备多模态感知能力,即它能够通过视觉、听觉等多种感官输入来进行信息处理。
但只做软件生态,还无法满足英伟达这样一家以芯片起家的公司的野心。
为人形机器人造“芯”
对于英伟达来说,公司的根本一直都是硬件,是 GPU。
因此在人形机器人领域,黄仁勋也同样希望能够延续英伟达在游戏、在 AI、在智能汽车领域的神话,做出遥遥领先的芯片。
一个人形机器人也是由多个“芯片器官”组成的,每个芯片负责不同的任务,让机器人能够像人一样思考、感知、行动、交流和生活。人形机器人需要6-8 种不同类型的芯片,包括中央控制、运动、视觉、语音、传感器和通信处理芯片,以完成全身调度、环境感知和与人类交流。
▲人形机器人所需要的芯片,有界 UnKnown 制图
而这些芯片中,有两类是比较关键的。一类是控制机器人运动路线的芯片,另一类是帮助机器人思考的芯片。
以特斯拉的人形机器人 Optimus 为例,这两块芯片分别使用的是特斯拉汽车上使用的 FSD 自动驾驶芯片,以及特斯拉训练自动驾驶而专门开发 DOJO 芯片。
在自动驾驶芯片方面,英伟达一直遥遥领先,其最新发布的 DRIVE AGX Thor 可提供高达 2000TFLOPS 的算力,是目前算力最高、效果最好的自动驾驶芯片。
而英伟达的人形机器人芯片就与 Thor 同出一源。
今年 11 月中旬,华尔街日报曾报道,英伟达计划在 2025 年推出面向人形机器人的专用芯片 Jetson Thor,在快速增长的机器人行业中占据一席之地。
Jetson Thor 具备高性能 AI 推理能力,支持运行如 GR00T 等大型多模态生成式 AI 模型,采用英伟达最新的 Blackwell 架构,并配备 Transformer 引擎,可以支持人形机器人在视觉、语音和触觉等多模态感知下的交互,增强其与人类的自然交流能力。这也是英伟达首次公开宣称专门为人形机器人打造的芯片平台。
Jetson 是英伟达旗下专为 AI 应用设计的紧凑型计算机平台,其芯片除了机器人之外,还应用在无人机、智能家居、医疗设备和工业自动化等场景。
Jetson 平台最早可以追溯到 2014 年,这也是英伟达在机器人领域布局的开始。
这一年,物联网、边缘计算、人工智能和机器人技术开始崭露头角,市场对与之匹配的芯片需求也在持续扩大。同时,这一年人形机器人也开始投入初期应用。软银在这一年推出 Pepper,它是全球首款能够识别和回应人类情感的商用人形机器人;法国 Aldebaran Robotics 公司开发 NAO 机器人,开始投入教育领域,帮助学生学习编程、科学和数学。
也是在这一年,英伟达上线 Jetson TK1 芯片,它具备更强的图形处理能力和 AI 处理能力,采用了基于 Kepler 架构的 GPU,并结合了 ARM Cortex-A15 CPU,适用于低功耗设备。虽然它并不是直接针对人形机器人,但却为人形机器人处理复杂的视觉感知和计算提供了硬件支持。
随后,几乎每隔一两年,英伟达 Jetson 系列都会发布新产品,其中 Jetson Xavier 和 Jetson Orin 相关系列对人形机器人的发展提供支持,并且它们清一色都是推理芯片。
▲英伟达 Jetson 芯片应用介绍
虽然 Jetson AGX Xavier 和 Jetson Orin 系列适用于机器人领域,但并非专门为人形机器人而设计,它们同样适用于无人机、自动驾驶等产品。
而计划于 2025 年上线的 Jetson Thor 则是专为人形机器人打造的,根据英伟达官方表示,Jetson Thor 能够执行复杂任务,并与人和机器安全、自然地交互,它采用英伟达最新的 Blackwell 架构,并配备 Transformer 引擎,可以支持人形机器人在视觉、语音和触觉等多模态感知下的交互,增强其与人类的自然交流能力。
结语
人形机器人并非黄仁勋首次做趋势性预测的领域,在黄仁勋的辉煌历史中,曾连续两次“押对宝”。
1999 年,中央处理单元(CPU)仍然是计算机系统的核心,虽然图形处理的需求不断增长,但 CPU 主要负责所有的计算任务,包括图形渲染。当时,虽然图形显卡市场也在发展,但多数显卡只能提供基础的 2D 图形渲染,并且较少具备 3D 加速能力。
黄仁勋却在这一年推出 GeForce GPU 系列,发布 GeForce256,成为世界上第一款 GPU,也是首个支持硬件加速的实时 3D 图形渲染的图形处理单元。
它给游戏玩家带来了前所未有的顺畅体验,根据“英伟达中国”纪念 1999 年这款 GPU 的相关文章描述,与 GeForce256 结合的游戏《虚幻竞技场》是首批拥有逼真反射效果的游戏之一,在发布的第一年内,便售出了超过 100 万份。[1]
2006 年,黄仁勋发布并行计算平台和编程模型“CUDA”,使得 GPU 具备处理通用计算任务的能力,CUDA 的发布被夸张地形容为一场“灾难”。如果将 GPU 形容为一个拥有上千个工人的工厂,可以驱动工人同时处理成千上万的图形像素,那么,CUDA 就像这群工厂工人的管理系统,它不仅能做图像渲染,还能做科学计算、分析大数据、训练 AI 模型。
这两次,黄仁勋都赢在芯片上。
那么,在人形机器人领域,除了做仿真训练平台,黄仁勋为人形机器人这个“新物种”造的“芯”,能让英伟达再次站在新的时代高点吗?
也许,不到 100 年,就能看到大街上到处行走的人形机器人。
参考资料:
[1]:英伟达中国《生日快乐!1999 年世界上第一块 GPU 问世!》