科研视野

分享IDEA研究院的科研趋势观察与工作随笔

编者按:人体姿态估计是计算机视觉的基础任务之一,相关技术已被广泛应用于增强现实(AR)、虚拟现实(VR)、人机交互(HCI)等领域。科幻电影特效画面拍摄所用的动作捕捉服,动辄上百万,想要低成本实现日常场景的动作捕捉,通过单目图像检测并估计人体的姿态是方法之一。然而,在复杂拥挤的多人场景中想要实现每个位置的精准检测,并非易事。

IDEA研究院的ICLR 2023入选论文之一“Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation”,新颖地提出了一种具有显式框检测的、完全端到端多人姿态估计框架ED-Pose,对比相同骨干网络下,在COCO和CrowdPose两大数据集上首次实现性能超越主流的基于heatmap的top-down方法,并且达到更快的模型收敛速度与推理速度。

本期带你详细了解ED-Pose的创新方法及研究思路。文末“科研有门道”板块还邀请到作者亲自分享独到的一分钟科研tips,记得看到最后噢~

IDEA论文快答时间
带你一分钟了解顶会论文核心内容

详细了解论文内容前
先来看看ED-Pose的检测效果吧!

记录苏炳添百米赛跑9.83秒高能瞬间? 没问题!跑得再快ED-Pose也能追得上

球员挤作一团,看不清有没有人越位? 没问题!再多人的场景ED-pose都分得清

捕捉刘耕宏的魔鬼健身操动作? 没问题!满屏弹幕遮挡也能精准检测

围观女团跳舞,画面外的腿部动作看不到? ED-Pose实时拓展给你“算”出来

全局与局部特征学习难以统一?
基于端到端框架的新方法亟待提出

多人姿态估计旨在定位出目标图像中每个人的2D关键点位置。如下图所示,该任务需要同时关注human-level(全局)与keypoint-level(局部)的特征学习。

主流解决方案多数采用的是两阶段(two-stage)的方法,即将其分为两个独立的子任务:全局人体检测和局部关键点回归,包括高性能但推理成本较高的top-down方法[1]和推理速度较快但精度较低的bottom-up方法[2]。但由于NMS、RoI裁剪或者关键点分组后处理等过程仍需手工操作,这些主流方案在全局和局部的特征学习间不可微分。

已有工作如Poseur[3]尝试端到端训练当中的top-down框架,但模型最后在COCO数据集测试却出现明显的性能下降(约8.7AP),这也说明了全局和局部之间存在优化困难的问题。因此,探索一种完全端到端、可训练的框架来统一多人姿态估计的两个子任务,变得尤为重要。

受到近年端到端目标检测方法DETR[4]的启发,2022年CVPR收录的一篇工作——PETR[5],提出了一种完全端到端的、不需任何后处理的多人姿态估计框架,其直接使用了一组随机初始化的pose query来查询关键点的局部特征,实现了实例级别的关键点检测。然而,这种仅依赖于局部特征的学习造成了相对较差的关键点匹配,尤其在遮挡、复杂姿势和拥挤场景中更为严重。此外,我们还发现,无论是两阶段或者基于DETR的方法,都存在收敛速度慢的问题。

重新定义多人姿态估计过程
创新融入检测框设计统一表达

传统的两阶段方法无法实现全局与局部的统一学习,现有基于新颖的端到端框架提出的方法性能较差,如何找到突破任务难点的新思路和新方法?

研究团队创新提出了一个具有显式框检测的完全端到端的框架,称为ED-Pose,其将多人姿态估计重新定义为了两个显式框检测过程。与先前的两阶段方法不同,ED-Pose将多人姿态估计重新定义为两个显式框检测过程,使用一致的检测框表示和回归损失统一了全局与局部的特征学习,简化了端到端多人姿态估计的pipeline。

具体而言,在通用骨干网络和编码器后,ED-Pose提出了一个人体检测解码器(human detection decoder)用于显式人体框检测并为后续关键点检测提供一个良好的初始化,从而加快训练收敛。为了引入关键点附近的上下文语义信息,ED-Pose将姿势估计视为关键点框的检测问题,以学习每个关键点的框位置和内部特征。

原来的关键点检测,每个点仅有X和Y值,无法了解周围点的信息。将关键点作为框后,增加了在长和宽框内语义信息,使得关键点位置推理时可纳入周围更多信息作为补充。例如推测人体肢体的关键点位置时,即使手肘被挡住了,通过检测框获得的信息也能帮助模型更精准地推测出结果。

Openreview的评审结果中也特别提及到,基于检测框关键点表达的人体关键点解码器是本文非常新颖的一处设计(“the human-to-keypoint decoder with the box-based keypoint formulation is a novel part.”)。

此外,ED-Pose采用人体与关键点特征交互学习策略来增强全局和局部特征聚合。从结果来看,相较于两阶段和现有单阶段方法,ED-Pose的收敛速度更快,并更好地平衡了推理时间和性能。

模型框架及效果总结

ED-Pose的框架简单易拓展,由backbone,encoder,以及两个具有显示框检测的decoder级联组成。这一方法的概念简单,无需后处理和热图(heatmap)监督。

我们将其在两个最为流行的人体姿态估计数据集——COCO数据集和CrowdPose数据集上进行测试,实验结果表明,显式框检测的引入将姿势估计的性能分别提高了4.5 AP和9.9 AP。

在CrowdPose测试集上,ED-Pose在相同的Backbone-ResNet50下超过了作为top-down方案的SimpleBaseline 9.1 AP,并且在Backbone-SwinL下优于同为端到端框架的PETR 1.5 AP,最终以76.6 AP达到CrowdPose数据集上的SOTA。

在COCO 验证集上,ED-Pose在ResNet50下同样超过了SimpleBaseline 1.2AP,并领先于所有的bottom-up和单阶段方法,以只有L1 loss的完全端到端框架首次实现了性能超越基于热图的top-down方法的结果。

编辑:阿谧
采访:IDEA研究院计算机视觉与机器人研究中心 杨杰、曾爱玲

关于论文

Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation

论文地址:
https://readpaper.com/paper/4720151013491752961
代码地址:
https://github.com/IDEA-Research/ED-Pose

参考文献

[1] Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. Deep high-resolution representation learning for human pose estimation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 5693–5703, 2019.

[2] Bowen Cheng, Bin Xiao, Jingdong Wang, Honghui Shi, Thomas S Huang, and Lei Zhang. Higherhrnet: Scale-aware representation learning for bottom-up human pose estimation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 5386–5395, 2020.

[3] Weian Mao, Yongtao Ge, Chunhua Shen, Zhi Tian, Xinlong Wang, Zhibin Wang, and Antonvan den Hengel. Poseur: Direct human pose regression with transformers. arXiv preprint arXiv:2201.07412, 2022.

[4] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. In European conference on computer vision, pp. 213–229. Springer, 2020.

[5] Dahu Shi, Xing Wei, Liangqi Li, Ye Ren, and Wenming Tan. End-to-end multi-person pose estimation with transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 11069–11078, 2022.

ED-Pose框架:实现又快又准的多人姿态估计

日期:2023-02-23
  • 分享:
IDEA CVR团队 ICLR 2023 入选论文“Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation”

编者按:人体姿态估计是计算机视觉的基础任务之一,相关技术已被广泛应用于增强现实(AR)、虚拟现实(VR)、人机交互(HCI)等领域。科幻电影特效画面拍摄所用的动作捕捉服,动辄上百万,想要低成本实现日常场景的动作捕捉,通过单目图像检测并估计人体的姿态是方法之一。然而,在复杂拥挤的多人场景中想要实现每个位置的精准检测,并非易事。

IDEA研究院的ICLR 2023入选论文之一“Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation”,新颖地提出了一种具有显式框检测的、完全端到端多人姿态估计框架ED-Pose,对比相同骨干网络下,在COCO和CrowdPose两大数据集上首次实现性能超越主流的基于heatmap的top-down方法,并且达到更快的模型收敛速度与推理速度。

本期带你详细了解ED-Pose的创新方法及研究思路。文末“科研有门道”板块还邀请到作者亲自分享独到的一分钟科研tips,记得看到最后噢~

IDEA论文快答时间
带你一分钟了解顶会论文核心内容

详细了解论文内容前
先来看看ED-Pose的检测效果吧!

记录苏炳添百米赛跑9.83秒高能瞬间? 没问题!跑得再快ED-Pose也能追得上

球员挤作一团,看不清有没有人越位? 没问题!再多人的场景ED-pose都分得清

捕捉刘耕宏的魔鬼健身操动作? 没问题!满屏弹幕遮挡也能精准检测

围观女团跳舞,画面外的腿部动作看不到? ED-Pose实时拓展给你“算”出来

全局与局部特征学习难以统一?
基于端到端框架的新方法亟待提出

多人姿态估计旨在定位出目标图像中每个人的2D关键点位置。如下图所示,该任务需要同时关注human-level(全局)与keypoint-level(局部)的特征学习。

主流解决方案多数采用的是两阶段(two-stage)的方法,即将其分为两个独立的子任务:全局人体检测和局部关键点回归,包括高性能但推理成本较高的top-down方法[1]和推理速度较快但精度较低的bottom-up方法[2]。但由于NMS、RoI裁剪或者关键点分组后处理等过程仍需手工操作,这些主流方案在全局和局部的特征学习间不可微分。

已有工作如Poseur[3]尝试端到端训练当中的top-down框架,但模型最后在COCO数据集测试却出现明显的性能下降(约8.7AP),这也说明了全局和局部之间存在优化困难的问题。因此,探索一种完全端到端、可训练的框架来统一多人姿态估计的两个子任务,变得尤为重要。

受到近年端到端目标检测方法DETR[4]的启发,2022年CVPR收录的一篇工作——PETR[5],提出了一种完全端到端的、不需任何后处理的多人姿态估计框架,其直接使用了一组随机初始化的pose query来查询关键点的局部特征,实现了实例级别的关键点检测。然而,这种仅依赖于局部特征的学习造成了相对较差的关键点匹配,尤其在遮挡、复杂姿势和拥挤场景中更为严重。此外,我们还发现,无论是两阶段或者基于DETR的方法,都存在收敛速度慢的问题。

重新定义多人姿态估计过程
创新融入检测框设计统一表达

传统的两阶段方法无法实现全局与局部的统一学习,现有基于新颖的端到端框架提出的方法性能较差,如何找到突破任务难点的新思路和新方法?

研究团队创新提出了一个具有显式框检测的完全端到端的框架,称为ED-Pose,其将多人姿态估计重新定义为了两个显式框检测过程。与先前的两阶段方法不同,ED-Pose将多人姿态估计重新定义为两个显式框检测过程,使用一致的检测框表示和回归损失统一了全局与局部的特征学习,简化了端到端多人姿态估计的pipeline。

具体而言,在通用骨干网络和编码器后,ED-Pose提出了一个人体检测解码器(human detection decoder)用于显式人体框检测并为后续关键点检测提供一个良好的初始化,从而加快训练收敛。为了引入关键点附近的上下文语义信息,ED-Pose将姿势估计视为关键点框的检测问题,以学习每个关键点的框位置和内部特征。

原来的关键点检测,每个点仅有X和Y值,无法了解周围点的信息。将关键点作为框后,增加了在长和宽框内语义信息,使得关键点位置推理时可纳入周围更多信息作为补充。例如推测人体肢体的关键点位置时,即使手肘被挡住了,通过检测框获得的信息也能帮助模型更精准地推测出结果。

Openreview的评审结果中也特别提及到,基于检测框关键点表达的人体关键点解码器是本文非常新颖的一处设计(“the human-to-keypoint decoder with the box-based keypoint formulation is a novel part.”)。

此外,ED-Pose采用人体与关键点特征交互学习策略来增强全局和局部特征聚合。从结果来看,相较于两阶段和现有单阶段方法,ED-Pose的收敛速度更快,并更好地平衡了推理时间和性能。

模型框架及效果总结

ED-Pose的框架简单易拓展,由backbone,encoder,以及两个具有显示框检测的decoder级联组成。这一方法的概念简单,无需后处理和热图(heatmap)监督。

我们将其在两个最为流行的人体姿态估计数据集——COCO数据集和CrowdPose数据集上进行测试,实验结果表明,显式框检测的引入将姿势估计的性能分别提高了4.5 AP和9.9 AP。

在CrowdPose测试集上,ED-Pose在相同的Backbone-ResNet50下超过了作为top-down方案的SimpleBaseline 9.1 AP,并且在Backbone-SwinL下优于同为端到端框架的PETR 1.5 AP,最终以76.6 AP达到CrowdPose数据集上的SOTA。

在COCO 验证集上,ED-Pose在ResNet50下同样超过了SimpleBaseline 1.2AP,并领先于所有的bottom-up和单阶段方法,以只有L1 loss的完全端到端框架首次实现了性能超越基于热图的top-down方法的结果。

编辑:阿谧
采访:IDEA研究院计算机视觉与机器人研究中心 杨杰、曾爱玲

关于论文

Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation

论文地址:
https://readpaper.com/paper/4720151013491752961
代码地址:
https://github.com/IDEA-Research/ED-Pose

参考文献

[1] Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. Deep high-resolution representation learning for human pose estimation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 5693–5703, 2019.

[2] Bowen Cheng, Bin Xiao, Jingdong Wang, Honghui Shi, Thomas S Huang, and Lei Zhang. Higherhrnet: Scale-aware representation learning for bottom-up human pose estimation. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pp. 5386–5395, 2020.

[3] Weian Mao, Yongtao Ge, Chunhua Shen, Zhi Tian, Xinlong Wang, Zhibin Wang, and Antonvan den Hengel. Poseur: Direct human pose regression with transformers. arXiv preprint arXiv:2201.07412, 2022.

[4] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. In European conference on computer vision, pp. 213–229. Springer, 2020.

[5] Dahu Shi, Xing Wei, Liangqi Li, Ye Ren, and Wenming Tan. End-to-end multi-person pose estimation with transformers. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 11069–11078, 2022.