新智元报道
编辑:编辑部
中国首个拥有真正意义多任务连续泛化具身模型的机器人,诞生了!这个机器人,是真正由模型训练出来的,据了解,截止目前除了 Figure 01,国内似乎还没有第二家能做到这种级别的泛化能力,即使被百般刁难,都能完成任务。清华校友下场创业,才 4 个月就已融资近 2 亿。
刚结束的世界机器人大会,余热未消。
各家机器人展示的花活,令人眼花缭乱。
然而大概所有逛展的人都有这样一个感触:目前全世界范围内,真正拥有强大泛化能力、能应对各个场景的机器人,依然寥寥无几。
中国厂商中是否有哪家机器人,能够实现真正的多任务连续泛化能力?
还真有!消息灵通的我们打听到,一家名为「千寻智能 Spirit AI」的具身智能公司,已经首次展示出了强大的多任务连续泛化能力。
据说这家神秘的公司成立时间并不长,却展示出了如此级别的技术进步,他们究竟是怎么做到的?
最近,我们去探了个厂,详细记录下了那些惊掉我们下巴的瞬间。
怎么刁难都不怕,动作无比丝滑
在研究人员的配合下,我们现场录制了一番 demo。
拿着白色纸杯的小哥走近机器人,并发出请求「一杯意式浓缩」,忙于看手机信息的同时,他却不小心把杯子弄翻了。
来看看,千寻的机器人会怎么做?
只见,它自如地用一只手将纸杯摆正。
然后用另一只手将其放在咖啡机上,按下功能键。
等咖啡做好之后,再将盛满咖啡的杯子放到桌子中间,任务就大功告成了。
所有动作均由神经网络自动生成
接下来过来的这位小哥,想要一杯卡布奇诺。
不过这次,换的是一个透明的玻璃杯。
而就在机器人快要够到杯子时,小哥还有意「刁难」它,快速把杯子移走了。
所有动作均由神经网络自动生成
面对这种刁难,机器人表示完全没问题!
端到端神经网络强大的泛化能力,让机器人能精准识别透明反光物体,无论杯子放到哪里,它的「夹子」手都能轻松 hold 住。
接下来,我们出场了,决定给它来个高难度的任务。
先随手在机器人一只手旁摆放一个纸巾盒,再将纸杯子紧挨纸巾盒放置,并要求「来一杯美式」。
没想到,它一眼识别出身旁的障碍物,并将其移到一旁,成功取到了杯子。
所有动作均由神经网络自动生成
最后,我们喝到了机器人制作的美式。
更惊喜的是,我们还在现场意外地发现:千寻机器人的「夹子」手也可以更换成灵巧手!
它不仅精准拿起苹果,还可以将其颠起,精准拿住。
而且,据称无论是什么样的手——两指、三指、五指,都可以实现连续多任务泛化。
看到这儿之后,我们瞬感惊艳,可以畅想出千寻机器人走进家庭的未来,凭借强大的泛化能力,帮助人们完成各种各样的任务。
所有动作均由神经网络自动生成
紧接着,我们纷纷涌向会议室,好奇地问道,「千寻机器人究竟是如何实现如此完美地连续泛化能力」?
豪华创业团队,全栈 AI 配齐
这家堪称「中国 Figure」的具身智能公司,智囊团在世界范围内也算是极其稀缺的。
幕后技术团队纷纷出自 UC Berkeley、CMU、NTU、清华、北大、浙大、华为、腾讯、大疆、小米等国内外顶尖高校、企业。
在具身大模型、机器人研发,以及实际落地上,这支融合学术精英与业界翘楚的团队,展现出了卓越的实力。
他们不仅有着基座模型预训练、RL、IL 等核心技术力,还在机械臂系统设计、机器人安全、控制架构等方面身处行业前沿。
正因如此,千寻智能才得以具备全栈的 AI 工程化能力。
一起来认识下,这支星光熠熠的领军团队,都有哪些关键人物。
创始人兼 CEO 韩峰涛
创始人兼 CEO 韩峰涛,师从机器人学术泰斗丁汉院士,在机器人领域中深耕十余年。
他曾任珞石机器人联合创始人&CTO,是国内高性能轻型工业机器人领军者和国内力控协作量产交付第一人,带队成功交付数十款型号的产品超 20000 台。
值得一提的是,这些产品还获得了 43 项国内外认证,其中包括全球仅有两家、国内唯一的医疗方向 IEC60601 安全认证。
而且,整机的自主化率达到了 90% 以上。
在产品应用方面,韩峰涛博士带领团队落地 20+ 行业、100+ 场景,1000+ 客户的商业化成果转化。
除了丰富的实践经验,他还积极参加许多国家级科研项目。
今年 2 月,韩峰涛博士创办了千寻智能 Spirit AI,致力于打造行业领先的通用机器人 AI 系统与人形机器人。
首席科学家高阳
而在 AI 能力方面,就不得不提另一位核心人物——首席科学家高阳,也是千寻智能的联合创始人。
他本科就读于清华计算机系,师从国内 ML 领域享有盛誉的著名学者朱军教授。
凭借出色的表现,他获得了 UC Berkeley 计算机系的全额奖学金,攻读计算机视觉博士学位。
这期间,高阳师从国际计算机视觉大师 Trevor Darrell 教授(曾培养了包括贾扬清在内的多位视觉领域知名学者)。
此外,在读博士、博士后期间,他曾与机器人学习领域的顶尖学者 Sergey Levine 和 Pieter Abbeel 教授有深入合作。
Pieter Abbeel 是扩散模型(Sora、SD 背后核心技术)的提出者之一。
爆火 AI 搜索初创 Perplexity AI 的创始人 Aravind Srinivas,以及前 OpenAI 联创 John Schulman,皆是他的学生。
论文地址:https://arxiv.org/pdf/2006.11239
此外,Sergey Levine 教授是美国 Physical Intelligence (Pi)的创始人。Pi 是美国具身智能领域的头部公司,获得 OpenAI 等公司共计 7000 万美元的天使投资。
就读博士期间,高阳在 AI 顶会 CVPR 上,曾发表了一篇大规模现实世界数据的端到端自动驾驶论文。
这为后来的端到端自动驾驶,如 FSD 等,奠定了学术基础。
论文地址:https://www2.eecs.berkeley.edu/Pubs/TechRpts/2020/EECS-2020-5.pdf
在个人贡献方面,如上介绍的所有机器人背后核心技术,皆有首席科学家高阳的贡献。
他在具身智能的三层模型中,取得了丰硕的研究成果。
在强化学习方面,高阳提出了世界上迄今为止,样本效率最高的强化学习算法 EfficientZero、EfficientZero v2。
EfficientZero 曾被前 OpenAI 联创、强化学习带头人 John Schulman,赋予了高度评价。
在模仿学习方面,他提出了 EfficientImitate 高性能模仿学习算法,相比斯坦福的 VMAIL 提升了 600% 性能。
此外,高阳从利用互联网视频以及预训练 VLM 角度,提出了 ViLa 和 CoPa 模型。
在硬件方面,千寻智能也是这一赛道中的佼佼者。
团队不仅具备了世界一流的机器人运动控制系统开发能力,还具备了一流的系统级机电系统设计能力
最重要的是,他们已经在工业机器人、医疗机器人方面,有着丰富的经验,在技术上实现「降维打击」。
总言之,千寻智能在软硬件方面所具备的领先优势,也成为持续吸引、赢得资本青睐与押注的关键因素。
所有动作均由神经网络自动生成
4 个月,融资 2 亿
这次千寻智能 Spirit AI 的天使轮融资,由弘晖基金领投,达晨财智、千乘资本跟投,同时,顺为资本和绿洲资本作为种子轮老股东也在持续加码。
现在,具身智能的下一个爆发点就在眼前。在商用服务和家用服务上,可能批量落地就在 3 到 5 年内了。
从工业到服务,再到家庭应用,一个亟待开拓的万亿级市场,正在所有人眼前展开。
凭借业界领先的具身大模型技术,和卓越的机器人研发能力,千寻智能将以最高效率完成从技术研发到产品市场化的商业闭环。
通用机器人成为人类的亲密伙伴,即将从科幻走入现实,整个世界已经开始走进智能机器人时代。机器人像 iPhone 手机一样人人可用的时刻,或许就在眼前了!
而看完了机器人自主做咖啡,我们对千寻智能打动投资人的理由,也就有了更多具象化的理解。
在弘晖基金投资团队看来,具身智能是 AGI 的重要应用场景,市场空间极为广阔。
在过去,机器人的操控依赖大量人工编程流程,对场景有诸多限制。而具身大模型算法与硬件结合而成的智能体,相对传统机器人会在任务泛化性上有极大的提升。
这类智能体,会是通往空间智能的最佳路径。而中国在机器人硬件产业链上,具备领先优势。
团队非常期待,新一代智能机器人的量产指日可待,掀起一场新的工业革命。
顺为投资团队非常看好千寻智能创始团队的复合背景和行业经验。同样,绿洲资本投资负责人也表示,千寻智能的队伍既结合了产业理解,还积累了前沿技术。也是因此,才让我们见证到了公司在短期内的高效成长和迭代。
达晨财智投资团队则肯定了千寻智能在行业内的稀缺性——这样一个团队,是同时具备机器人硬件、具身 AI 算法能力以及商业化经验的老炮团队,紧密结合了过往的机器人工程化理解和前沿学术积累。
才短短半年,公司表现出的具身大模型以及快速的软硬件迭代能力,无不令人印象深刻。
而千乘资本投资团队对千寻智能表示出了强烈的信心。
在他们看来,AI 大模型的革命性突破,赋予了机器人更多的智能性和敏捷性,展现出通用和泛化能力。
在人形机器人这个下一个万亿级别的大赛道,千寻智能无疑站在了行业的前沿。