基于多视图投影的半监督手姿态估计算法

关注
基于多视图投影的半监督手姿态估计算法www.shan-machinery.com

手姿态估计是自然人机交互领域的热点方向之一,由于其灵活、自然等特性,能够提供便捷的交互体验,使得其在虚拟现实、互动娱乐、人机交互、手语识别等领域有极大的应用价值。然而,由于手部的高自由度、遮挡严重、手部区域占比小等问题,手姿态估计仍然具有挑战性。

文献[1]比较了已发表的手姿态估计算法,发现在统一的标准下,最近临算法效果超过了大多数基于随机森林、卷积神经网络等复杂模型的算法。这些算法的效果提升需要更多、更优质的标记数据。当前获取标记数据有3种方法:人工标注、自动标注和合成数据[2]。人工标注费时费力,且标注过程带有主观判断,往往造成数据的不均一性。自动标注采用机器学习的方法辅助标注,其标注过程本身含有误差信息。合成数据能够解决一部分问题,但是和真实数据相比,仍然有差别,甚至产生一些不符合人体结构的数据。因此,文献[3]提出了基于半监督学习的方法,该方法能够充分利用模型的优势,并且降低对标记数据的依赖。

手姿态估计算法一般可以分为基于模型的方法、基于数据的方法以及综合方法。基于模型的方法需要对手的结构进行分析,定义出手部模型,通过优化模型与图像之间的误差以实现姿态估计。文献[4]采用骨架模型和级联构架,通过多次弱迭代回归得到最终姿态。文献[5]采用手三维模型库生成深度点云数据,结合粒子群优化算法(practical swarm optimization, PSO)实现模型匹配。基于数据的方法直接建立数据到姿态的映射,其优势在于不需要复杂的模型校准,且不依赖初始化的质量。文献[6]使用树形结构,采用二分的方法把手分为手掌和手指,然后逐层二分到各个关节,采用一个二分隐树模型(binary latent tree model (b-LTM))分类各层的像素点,最后投票计算每个关节的三维坐标。综合方法通过模型产生大量假设,然后进一步优化模型和图像之间的能量函数。文献[7]通过Reinitialization模块产生大量假设,采用PSO算法优化其定义的“Golden Energy”误差函数以获取最优的匹配姿态。

相比于传统的算法,文献[7]中的卷积神经网络(convolutional neural networks, CNN)在手姿态估计中展现了优势。文献[8]通过引入一种“bottleneck”层结构来融合姿态先验,以提升姿态估计的准确度。相较于直接回归坐标点,文献[9]进一步把深度图投影到3个正交面上,通过多个卷积神经网络分别预测关节点在各个正交面上的热图,最后采用后融合的方式计算各个关节点姿态。文献[7]进一步采用三维描述子(directional truncated signed distance function, D-TSDF)描述各个投影面,结合3D-CNN回归手部姿态。文献[10]则采用两个不同视角的相机数据,学习两个视角之间的隐层联系,最后回归至节点坐标。

半监督学习能够有效减少对标记数据的依赖。文献[11]利用半监督直推学习模型融合少量的标记真实数据和大量的合成数据。文献[12]学习一个双向映射网络,以连接从无标签数据中学习到的深度隐空间表征和利用标记数据学习到的手姿态隐空间表征。文献[13]直接以一个视角的数据为输入,预测另一个视角数据,通过编码-解码模型学习两个视角数据的隐层表征,其主要目的在于学习深度图的低维表征,而后通过全连接层回归到手部姿态。

虽然传统方法和基于卷积神经网络的方法在手姿态估计中均获得了较好的结果,但是存在以下问题:1)传统方法中,基于模型的方法受限于模型的复杂度和初始化策略,基于数据的方法则无法获得较好的泛化能力;2)基于2D-CNN或3D-CNN的方法需要大量的训练数据,但是手姿态的高维度链式结构使得数据的采集和标记质量难以得到保证;3)现有的半监督学习方法采用合成数据或者多个相机不同视角的数据,需求大量的计算性能,且限制了应用场景。针对这些不足,本文提出了一种基于视图的半监督学习方法。在工程界,三视图能够反映三维模型的完整信息,是一种三维模型通用的抽象表达方法。以此为启发,本文把深度图分别映射到3个正交面,进而建立3个投影视图在低维度隐空间中的关联表征,最后回归到手姿态的关节点坐标。这种方法能够有效地利用无标签数据学习高维度视图观察到低维度隐空间表征的映射,同时,端到端的结构避免了后融合等方法的复杂建模及计算。

https://www.shan-machinery.com