国思软件 - 一个摄像头就能让虚拟人唱跳rap，抖音即可玩

　　允中发自凹非寺

　　量子位公众号 QbitAI

　　全身动作捕捉，现在无需昂贵的动捕设备，只要一个摄像头就能轻松实现。

　　并且就在抖音上，人人都能上手体验。

　　上面这段虚拟数字形象跳舞的视频采用了抖音直播伴侣功能背后的全身驱动技术，主播仅需要单个普通摄像头并开始跳舞，就可以实时、精准地驱动虚拟形象。

　　相较于以往的轻量化动作捕捉，这项来自字节跳动智能创作团队的全身驱动技术具有高真实性，可以体现空间的距离感和地面感。

　　并且具有更高的鲁棒性，能够在复杂的环境、穿戴等场景下实现良好的结果。

　　同时，还具备更高的还原性，人物的姿态、手势和动作的姿态、速度都能更加准确地还原。

　　值得一提的是，普通的惯性动捕手套在一定时间后就会产生漂移损耗，无法支持长时间的直播，而全身驱动技术则可以有效规避这一问题，能够更好地适应直播场景。

　　据介绍，全身驱动技术的技术方案包含了数据、估计、修正以及驱动四个步骤，具体的实现方案如下：

　　△全身驱动技术方案全流程

　　构建高精度 3D 数据供应链

　　技术团队使用了混合 3D 数据构建方式，其来源包括自建多目工装动捕系统、2D 数据、伪标签 3D 数据，基于此，团队构建了包含 800 万以上高精 3D 标签的数据集。

　　为了获取接近业务场景的高精度 3D 人体数据，团队搭建了一套完整的基于多目摄像头的无标记物视觉动捕系统，并基于自研的人体重建算法，实现了对人体的位置，姿态和体型的准确估计。

　　尽管在多数情况下，自动化的重建算法能够给出精度满足要求的重建结果，但对于一些遮挡严重，运动过快导致模糊的样本，仍需要通过人工筛选修正的方式进行数据清洗。通过搭建 3D 数据筛选标注系统，可以实现高效的半自动化数据生产，并通过将人工审核后的样本用于相关模型的训练，持续优化数据产线相关模型的性能，最终实现数据质量的自举式提升。

　　△高精度 3D 数据构建流程

　　高还原性与高鲁棒性的全身估计模型

　　据介绍，通过上述步骤，团队积累了样本量高达近千万的大规模数据集。

　　在此基础上，团队训练了一个基础特征表示底座进行 3D-Aware 的共享特征抽取，基于共享特征构建了姿态估计分支、相机估计分支、Root 点估计分支。

　　其中，姿态估计分支负责为表演者的关节点进行局部 3D 坐标估计，相机估计分支以及 Root 点估计分支为当前表演者的全局位置进行估计。

　　基于多分枝的估计模块结合积累的大量自有数据，人体估计模型可以在较少的计算量下取得高还原性与高鲁棒性的结果。

　　另外，针对全身场景下的手部姿态估计，团队统计了手腕关节旋转的先验分布辅助模型训练，保证模型输出符合人体结构约束；设计了手腕关节的时序模型，保证手腕姿态的稳定性；对关键点预测进行概率建模从而预测模型输出的置信度进行难样本过滤；将以上优化点与大量的自有手部数据结合，智能创作团队的手部姿态算法模型在复杂遮挡模糊场景下结果仍可有不错的表现。

　　以下为人体在复杂遮挡服饰场景下的优化对比。左边为原始预测结果，右边为异常遮挡优化结果。

　　再来看看手腕在旋转动作下的优化对比。左边为原始预测结果，右边为手部姿态还原性&鲁棒性优化结果。

　　时空关联建模强化鲁棒性

　　在身体估计模块获取了基本的 3D 关节点信息后，技术团队训练了时序完整性模块对原始结果进行修正。

　　在时序完整性模块中，引入关节点在时序上的关联关系以及同时刻关节点的空间关联关系，同时引入了关节点位置感知模块，使得具体关节点位置可以被显式编码为高维向量加入训练。

　　在时序建模的基础上，团队同时设计了异常检测模块对分布外的姿态结果进行过滤修正。时空关联建模的设计保证了人体估计算法可以进一步获得高鲁棒性的驱动信号。

　　人体在复杂遮挡服饰场景下的优化对比（左为原始预测结果，右为时空关联建模修正后结果）：

　　自研算法，实现高真实感驱动

　　在通过一些算法模型计算后，团队获得了精准且可靠的人体关节点输出，但这距离驱动一个活灵活现的虚拟人仍然还有最后几个步骤，需要通过 IK 算法获取特定虚拟角色的旋转角以对其完成驱动。

　　对此，团队自研了 EasyIK 算法，其可以对大臂小臂、大腿小腿等容易出现自旋错误的关节提供合理姿态。

　　同时，为了保证驱动虚拟角色的真实感，团队研发了接地算法，对驱动虚拟角色的地面进行估计，并为单脚以及双脚姿态在地面上自然姿态以及移动的距离进行估计。

　　EasyIK 以及接地算法的引入使得虚拟人驱动可以获得更好的真实感。

　　足部稳定性优化对比（左为原始预测结果，右为高真实感驱动效果）：

　　随着虚拟数字人技术的发展和虚拟偶像的兴起，虚拟数字人在游戏、虚拟社交，在线健身、在线教育、虚拟主播等领域都将有更加广阔的应用空间。更加实时、轻量化、低成本的动作捕捉技术也将成为行业的趋势。

　　全身驱动技术方案能大大降低了真人驱动虚拟数字人的应用门槛，助力打造更加趣味、沉浸式的交互体验。

　　关于字节跳动智能创作团队：

　　智能创作团队通过建设领先的计算机视觉、音视频编辑、特效处理等技术，支持抖音、剪映、头条等公司内众多产品线；同时通过火山引擎为外部 ToB 合作伙伴提供业界前沿的智能创作能力与行业解决方案。

　　体验抖音直播伴侣，可访问：https://streamingtool.douyin.com/

　　*本文系量子位获授权刊载，观点仅为作者所有。

　　— 完 —

一个摄像头就能让虚拟人唱跳rap，抖音即可玩

我们的产品

相关链接

关于我们

联系我们