明敏丰色发自凹非寺
量子位公众号 QbitAI
现在,只用 WiFi 就能“看”到你在房间里干啥了……
(你…干…嘛……啊啊啊啊)
多人追踪也是 so easy:
过程中完全不需要拍下图像、不需要摄像头。
输入的仅是 WiFi 一维信号,输出则是三维人体姿态。
两台路由器即可搞定!换算成本都不到 500 块。
而且还不受环境光线、目标被遮挡的影响,效果接近于基于 2D 图像进行识别的方法。
啊这,难道说 WiFi 能“看到”我?更进一步……WiFi 能监视我??
OMG,蝙蝠侠剧情要照进现实了??
要知道在《暗黑骑士》里,哥谭市所有人的手机都变成了监控设备,同一空间里所有人的一举一动都能被实时记录。
网友们已经构思恐怖脑洞了:想象一下,只需一台连接 WiFi 接收器的电视机,别人就能看到我们全家在干啥了。
有人甚至说,以后可能必须要在身上涂保护层来屏蔽 WiFi 信号。
搞全身追踪,不要用摄像头了
如上提到的方法,是卡耐基梅隆大学(CMU)机器人研究所的新成果。
研究的本身目的是为了保护隐私,毕竟在很多非公共场所,如养老院、独居老人家中,监控非常有必要,但是使用摄像头又很难保证隐私安全。
使用雷达倒是能解决隐私问题,但价格和具体可操作上就很劝退了。
于是,该团队想到了用现在几乎各家必备的 WiFi 来进行识别。
所以在设备上,仅需两台再也普通不过的家用路由器(每个至少有 3 根天线)就可以了。
原理也很简单,就是利用 WiFi 信号中的信道状态信息(CSI)数据。
这些数据是一堆复杂的十进制序列,可以表示发射信号波和接收信号波之间的比率。
当它们在发射器和接收器之间传输时,一旦接触到人体,就会被修改。
于是,通过解读这些“改变”,就可以检测到人体姿态。
为此,研究人员开发了一个“基于区域”的卷积神经网络分析 pipeline,该 pipeline 可以定位人体的各个部位。
然后再将 WiFi 信号的相位和振幅映射到24 个人体区域里的坐标,实现最终的全身姿态追踪。
具体来说,模型通过三个分量从 WiFi 信号中生成人体表面的 UV 坐标。
首先,通过振幅和相位 Sanitization 步骤对原始 CSI 信号进行“净化”处理。
然后,将处理过的 CSI 信号通过双分支编码器-解码器网络转换为 2D 特征图。
接着,将 2D 特征馈送到一个叫做 DensePose RCNN 的架构中。
该架构灵感就来自 Facebook 已经开源的人体姿势实时识别系统 DensePose。DensePose 入选了 2018 年 CVPR 的 Oral 环节,主要是把 2D 图像转换成 3D 人体模型。
所以这步的目的就是算出 2D 特征图对应的 3D 姿态,也就是估计出 UV 坐标。
最后,在训练主网络之前,作者还将用图像生成的多层次特征图与 WiFi 信号生成的多水平特征图之间的差异进行了最小化,进一步完善了最终结果。
尽管我们从肉眼看上去,两种方法的最终结果差不多,但在数据方面,基于图像的方法效果还是更好一些。
比如在同样环境布局下,基于 WiFi 方法的精确度都低于图像方法。
△数值越高意味着越好
不同环境布局的情况也是如此。
与此同时,如果遇到数据集中不包含的动作,该方法也无法识别成功。如果人数超过 3 个,也发生“丢人”情况。
下图中左边两幅是罕见动作失败案例,右边两幅是 3 人以上识别失败情况。
不过团队认为,如上问题可以通过进一步扩充数据集来解决。
除此之外,该方法对路由器的放置位置要求很高,并且会对其他 WiFi 网络造成影响。
来自 CMU 团队,有 2 位华人作者
论文一作为Jiaqi Geng,他来自卡耐基梅隆大学,去年 8 月获得了机器人专业硕士学位。
另一位华人作者是Dong Huang,他现在是卡耐基梅隆大学高级项目科学家。
他的研究方向一直都是利用深度学习进行信号识别。比如之前已经实现了用 WiFi 信号实时识别 2D 人体姿态。
最后一位作者是Fernando De la Torre,他现在卡耐基梅隆大学机器人研究所副教授。
他的研究方向主要为计算机视觉,涉及领域包括人体姿态识别、AR/VR 等。
2014 年曾创办过一家开发人脸识别技术的公司 FacioMetrics LLC,2 年后被 Facebook 收购。
作者团队表示,目前该方法性能还受限于可用来训练的数据不多,未来,他们计划扩充数据集。
论文地址: