重新思考人体姿态估计 Rethinking Human Pose Estimation

浅谈:2D人体姿态估计基本任务、研究问题、意义、应用、研究趋势以及未来方向

1.基本定义:从单张RGB图像中,精确地识别出多个人体的以及其骨架的的稀疏的关键点位置。

2.基本任务:给定一张RGB图像,定位图像中人体的关键点位置,并确定其隶属的人体。

按照人的直观视觉理解的话,主要会涉及到以下问题:

基于Deep CNN的方法的试图通过神经网络的拟合能力,建立一种隐式的预测模型来避开上述的显式问题:

3.当前主流研究的基础问题和难点:

4.方法分类:

5.近几年的代表作

6.研究意义:

7.应用:

8.研究趋势的变化以及扩展:

个人思考

当前所有的姿态估计方法几乎都使用了深度卷积神经网络的强大功能,但个人认为神经网络设计绝不是解决该问题的核心,用力搔靴和脱掉鞋子,哪个才是更好的止痒手段呢?

人体姿态估计是一个综合的问题,有很多的切入点和难题值得去研究,并且它是一个尚未实际落地的计算机视觉技术。在这个层面上,AI的产品经理们和投机者们应该想想这项技术怎么能更好地服务大众,并带来市场和利润。

作为科学研究者,赚钱的考虑或应该暂时放到明天。我想讨论的是: 当我们面对一项任务和难题, 我们是应该忽略固有的困难和问题,提出新的问题,给出问题方案,去探索新的研究趋势呢?还是强行深入当前的固有问题,解决当下的难题呢? 是不是有一些的问题是超前式的,也许放到以后才会有更加合适的方案和角度来解决?

或者说,我们还可以用另一种粗暴的方案:把这一问题黑箱化或者半黑箱化,然后从神经网络结构设计、数据处理、增强以及其他机器学习数学方法去暴力式的解决。这样的解决方式实际上是,摒弃了人类本身做姿态估计的直观思路(上面所述),而是从更加“机器学习”的角度去处理这个问题。假如,我们寻找到一个“完美”结构的神经网络,让它去达到100%或者近似100%的准确率!这样以来,似乎预测问题被完完全全地解决了,但是问题是,我们不知道能不能找到这样的结构或者技术,或者说一旦找到了以后能不能解释性地理解这一技术? 这就又引出了大家探讨争论许久的可解释性问题、显式推理问题。其实今年CVPR19 的PifPaf的工作值得我们去思考,它继续引入复合场(Composite Field)的概念,预测人为得设计好的高维度向量来处理人体姿态预测问题,让模型预测更加巧妙的监督信息。该方法能降低量化误差,设计的关联肢体得分公式巧妙保持了期望的一致性,再加之一个快速贪心算法,利用人体的连通特性就能得到多人姿态。这样的设计与算法,尽管性能比那些注重网络结构设计的略差一些,但却遵循合理的直觉,并且可解释性强,启发性强,是不是需要我们更多的关注?

另外,今年ICLR2019上,有学者甚至提出了无监督的方式处理人体部件。 我认为这是一种可以去探讨的问题, 因为人体姿态本身其实可以看成图像中的特征簇, 其视觉上的连通特性本身就具备了高维特征上的独特性。那么靠聚类手段、生成模型、无监督学习在直觉上是可行的, 如果再加上视频,光流等辅助信息, 那么就可以从大量无标签的图像数据中, 准确构建人体部件的特征、部件到整体的结构特征以及人体姿态的运动时序特征, 这可能又会是一个新的思路和解决人体姿态估计任务的新手段吗?