MPHPE问题的端到端解决方案及构建的两个全范围数据集

释放双眼，带上耳机，听听看~！

本文介绍了作者提出的名为DirectMHP的端到端简单基线，用于解决MPHPE问题，并构建了两个全范围数据集AGORA-HPE和CMU-HPE。文章重点讨论了解决MPHPE问题的创新思路和方法。

前言现有的头部姿势估计主要集中在具有预先检测到的正面头部的单个人，这依赖于单独训练的面部检测器，不能很好地泛化到完整的视点。在本文中，作者关注全范围 MPHPE 问题，并提出了一个名为 DirectMHP 的直接端到端简单基线，通过多头的联合回归位置和方向设计了一种新颖的端到端可训练单级网络架构，以解决 MPHPE 问题。这种灵活的设计可以接受任意姿势表示，同时可以隐含地从更多环境中获益，以提高 HPE 精度，同时保持头部检测性能。

欢迎关注公众号CV技术指南，专注于计算机视觉的技术总结、最新技术跟踪、经典论文解读、CV招聘信息。

计算机视觉入门1v3辅导班

MPHPE问题的端到端解决方案及构建的两个全范围数据集

论文：arxiv.org/pdf/2301.13…

代码：github.com/hnuzhy/Dire…

论文出发点

目前，两个最广泛使用的 HPE 数据集BIWI和300W-LP仅包含窄范围偏航角（-99°，99°）的头部姿势标签。现有 HPE 方法的性能在这些基准上趋于饱和。然而，覆盖全范围偏航角（−180°、180°）的 HPE 方法因此同样具有重要的应用价值。

作者认为目前的两阶段 HPE 方法存在以下两个缺点：（1）人脸/头部检测和方向估计的两阶段模型不能端到端地训练，这使得它不紧凑且效率低下；(2) 单独的阶段无法整合和利用整个人体和周围背景的信息，因此这些模型在野外应用时对挑战性条件不稳健。

创新思路

由于多人头部姿势估计 (MPHPE) 任务没有专门的公共数据集。因此，本文首先分别构建两个 2D 全范围 MPHPE 数据集 AGORA-HPE 和 CMUHPE。然后，本文提出了一种新颖的单级端到端网络结构 DirectMHP，它可以直接预测出现在一张图像中的所有人类头部的全方位姿势。该方法通过共享特征实现联合头部检测和姿势估计。同时，将头部姿势作为相邻属性集成到典型对象预测中，支持任意姿势表示，例如欧拉角。

方法

Benchmarks Construction

（1）AGORA-HPE

首先通过封闭形式的解决方案从具有精确正面视图和预定义相机参数Cref的通用头部模型Href计算相似变换矩阵Mc。在Hreal和Href中精心选择N0对角地标进行对齐。然后，使用Mc松散地围绕每个头部定义一个变换后的3D半球，并通过具有真实相机参数Creal的2D投影生成其边界框，以获得包含背景和整个头部的区域。最后，为了提取头部方向，估计从相机世界Ccam到现实世界Creal的变换矩阵 Mr。Mr计算如下：

MPHPE问题的端到端解决方案及构建的两个全范围数据集