新闻动态

听见我们的声音

2023年1月,深度学习顶级学术会议ICLR 2023正式公布论文收录结果。IDEA研究院计算机视觉与机器人研究中心(CVR)投稿论文均顺利获得收录,中稿率100%!被收录的论文涵盖了目标检测、Transformer模型训练、人体姿态估计等方向。

ICLR全称为国际学习表征会议(International Conference on Learning Representations),由深度学习三大巨头的Yoshua Bengio和Yann LeCun牵头创办,是深度学习领域的顶级会议之一。在Google Scholar的学术会议/期刊排名中,ICLR目前排名第9位。ICLR 2023预计将于5月1日至5日在卢旺达首都基加利举办。

下面是入选论文概览:

一、论文题目:DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

论文链接:https://readpaper.com/paper/4599417873076592641

开源链接:https://github.com/IDEA-Research/DINO

目标检测是计算机视觉领域的基础任务,对于一张给定的图片,它要求模型能够找到并定位图片中的物体。这一任务极具挑战,被广泛应用于很多下游任务。基于DETR的检测方法是Transformer应用在目标检测中的成功范例,但是他们与经典的基于CNN的检测方法在检测性能和收敛速度上还有差距。本文提出的检测方法DINO基于前人的方法,通过对denoising training, decoder的梯度传递和query selection部分的优化,在denoising部分即使用了正样本(同DN-DETR),又使用了hard negative的方式抑制重复框,在decoder的梯度传递时使用look-forward-twice的方法防止陷入局部最优解,用mix-query-selection的方法选择初始化的anchors。DINO取得了当时COCO榜单的第一名,第一次证明了基于DETR的检测模型具有超越经典方法的潜力。


图1:DINO模型结构示意图

 

二、论文题目:LipsFormer: Introducing Lipschitz Continuity to Vision Transformers

论文链接:https://readpaper.com/paper/717255664598069248

我们提出了一种利普希茨连续Transformer,称为LipsFormer,旨在从理论上和实证上追求Transformer模型的训练稳定性。与之前的通过改进学习率预热、层归一化、注意力表述和权重初始化来解决训练不稳定性的实际技巧不同,我们表明利普希茨连续性是确保训练稳定性的更重要的性质。在LipsFormer中,我们用利普希茨连续的模块替换不稳定的Transformer组件模块:具体的说,我们用CenterNorm代替LayerNorm,谱初始化代替Xavier初始化,缩放余弦相似度注意力代替点积注意力,以及加权的残差模块替代原因残差结构。我们理论证明这些引入的模块是满足Lipschitz连续条件的并给出了对应的利普希茨常量,并对整个LipsFormer网络的利普希茨常数给出了一个上界。我们的实验表明,LipsFormer允许深层Transformer架构的稳定训练,而不需要仔细的学习率调整(如预热),实现更快的收敛和更好的泛化。在ImageNet 1K数据集上,基于Swin Transformer训练300个周期的LipsFormer-Swin-Tiny可以在没有任何学习率预热的情况下获得82.7%的准确率。此外,基于CSwin的LipsFormer-CSwin-Tiny在300个周期的训练中可以获得83.5%的Top-1准确率。


图2:比较LipsFormer模块与ConvNeXt、Transformer和Swin-Transformer模块。我们使用不同的颜色标记我们的Lipschitz连续改进版本。

 

三、论文题目:Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation

论文链接:https://readpaper.com/paper/4720151013491752961

开源链接:https://github.com/IDEA-Research/ED-Pose

多人姿态估计旨在定位目标图像中每个人的2D关键点位置,其被广泛应用于增强现实(AR)、虚拟现实(VR),人机交互(HCI)等领域。ED-Pose提出了一种具有显式框检测的端到端多人姿态估计框架。与先前的单阶段方法不同,ED-Pose将多人姿态估计重新定义为两个具有统一表示和回归监督的显式框检测过程。具体而言,ED-Pose首先利用一个人体检测解码器为后续关键点检测提供一个良好的初始化,从而加快训练收敛。为了引入关键点附近的上下文信息,ED-Pose将姿势估计视为关键点框检测问题,以学习每个关键点的框位置和内部特征。此外,ED-Pose采用人体与关键点特征交互学习策略来增强全局和局部特征聚合。总的来说,ED-Pose概念简单,无需后处理和热图监督。实验结果表明,显式框检测将姿势估计性能在COCO数据集和CrowdPose数据集上分别提高了4.5 AP和9.9 AP。这也是首次,ED-Pose作为一个只有L1 loss的完全端到端框架能在COCO数据集上优于基于热图的自上而下方法1.2 AP,并以76.6 AP达到CrowdPose数据集上的SOTA。


图3:(a)解释多人姿态估计任务的目标; (b) 现有算法的对比

 


图4:ED-Pose的模型框架示意图

科研动态|IDEA研究院3篇论文获顶级学术会议ICLR 2023收录

日期:2023-02-16
  • 分享:
CVR中心论文中稿率100%

2023年1月,深度学习顶级学术会议ICLR 2023正式公布论文收录结果。IDEA研究院计算机视觉与机器人研究中心(CVR)投稿论文均顺利获得收录,中稿率100%!被收录的论文涵盖了目标检测、Transformer模型训练、人体姿态估计等方向。

ICLR全称为国际学习表征会议(International Conference on Learning Representations),由深度学习三大巨头的Yoshua Bengio和Yann LeCun牵头创办,是深度学习领域的顶级会议之一。在Google Scholar的学术会议/期刊排名中,ICLR目前排名第9位。ICLR 2023预计将于5月1日至5日在卢旺达首都基加利举办。

下面是入选论文概览:

一、论文题目:DINO: DETR with Improved DeNoising Anchor Boxes for End-to-End Object Detection

论文链接:https://readpaper.com/paper/4599417873076592641

开源链接:https://github.com/IDEA-Research/DINO

目标检测是计算机视觉领域的基础任务,对于一张给定的图片,它要求模型能够找到并定位图片中的物体。这一任务极具挑战,被广泛应用于很多下游任务。基于DETR的检测方法是Transformer应用在目标检测中的成功范例,但是他们与经典的基于CNN的检测方法在检测性能和收敛速度上还有差距。本文提出的检测方法DINO基于前人的方法,通过对denoising training, decoder的梯度传递和query selection部分的优化,在denoising部分即使用了正样本(同DN-DETR),又使用了hard negative的方式抑制重复框,在decoder的梯度传递时使用look-forward-twice的方法防止陷入局部最优解,用mix-query-selection的方法选择初始化的anchors。DINO取得了当时COCO榜单的第一名,第一次证明了基于DETR的检测模型具有超越经典方法的潜力。


图1:DINO模型结构示意图

 

二、论文题目:LipsFormer: Introducing Lipschitz Continuity to Vision Transformers

论文链接:https://readpaper.com/paper/717255664598069248

我们提出了一种利普希茨连续Transformer,称为LipsFormer,旨在从理论上和实证上追求Transformer模型的训练稳定性。与之前的通过改进学习率预热、层归一化、注意力表述和权重初始化来解决训练不稳定性的实际技巧不同,我们表明利普希茨连续性是确保训练稳定性的更重要的性质。在LipsFormer中,我们用利普希茨连续的模块替换不稳定的Transformer组件模块:具体的说,我们用CenterNorm代替LayerNorm,谱初始化代替Xavier初始化,缩放余弦相似度注意力代替点积注意力,以及加权的残差模块替代原因残差结构。我们理论证明这些引入的模块是满足Lipschitz连续条件的并给出了对应的利普希茨常量,并对整个LipsFormer网络的利普希茨常数给出了一个上界。我们的实验表明,LipsFormer允许深层Transformer架构的稳定训练,而不需要仔细的学习率调整(如预热),实现更快的收敛和更好的泛化。在ImageNet 1K数据集上,基于Swin Transformer训练300个周期的LipsFormer-Swin-Tiny可以在没有任何学习率预热的情况下获得82.7%的准确率。此外,基于CSwin的LipsFormer-CSwin-Tiny在300个周期的训练中可以获得83.5%的Top-1准确率。


图2:比较LipsFormer模块与ConvNeXt、Transformer和Swin-Transformer模块。我们使用不同的颜色标记我们的Lipschitz连续改进版本。

 

三、论文题目:Explicit Box Detection Unifies End-to-End Multi-Person Pose Estimation

论文链接:https://readpaper.com/paper/4720151013491752961

开源链接:https://github.com/IDEA-Research/ED-Pose

多人姿态估计旨在定位目标图像中每个人的2D关键点位置,其被广泛应用于增强现实(AR)、虚拟现实(VR),人机交互(HCI)等领域。ED-Pose提出了一种具有显式框检测的端到端多人姿态估计框架。与先前的单阶段方法不同,ED-Pose将多人姿态估计重新定义为两个具有统一表示和回归监督的显式框检测过程。具体而言,ED-Pose首先利用一个人体检测解码器为后续关键点检测提供一个良好的初始化,从而加快训练收敛。为了引入关键点附近的上下文信息,ED-Pose将姿势估计视为关键点框检测问题,以学习每个关键点的框位置和内部特征。此外,ED-Pose采用人体与关键点特征交互学习策略来增强全局和局部特征聚合。总的来说,ED-Pose概念简单,无需后处理和热图监督。实验结果表明,显式框检测将姿势估计性能在COCO数据集和CrowdPose数据集上分别提高了4.5 AP和9.9 AP。这也是首次,ED-Pose作为一个只有L1 loss的完全端到端框架能在COCO数据集上优于基于热图的自上而下方法1.2 AP,并以76.6 AP达到CrowdPose数据集上的SOTA。


图3:(a)解释多人姿态估计任务的目标; (b) 现有算法的对比

 


图4:ED-Pose的模型框架示意图