计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)立足于计算机视觉和机器人方向的基础研究,专注于大规模视觉表示学习、物体检测与识别、智能控制等问题,通过核心技术的研究和突破,打造世界领先的机器视觉和智能机器人技术。同时,CVR力图通过对技术和平台的开源来造福产业和基础科研。目前,CVR的开源方向主要包括detrex物体检测框架和Deep Data Space数据平台。

技术方向

AIGC

以人为中心的视觉分析

DDS数据平台

AIGC

Content creation is a hallmark of human intelligence and a long-standing challenge for machine learning algorithms.
At IDEA we explore frontiers of AI Generated Content (AIGC), from language to image, video, and 3D assets generation.

We believe that with AI techonology, anyone can create digital content that truly reflects their unique experiences, creativity and aesthetic preferences.

Human-centric computer vision

We focus on developing high-impact algorithms and data on human-centric visual understanding and perception to benefit broader applications. We have some active research directions, including 2d/3d human pose estimation/reconstruction/animation and human neural rendering.

Besides, we explore low-cost and expressive digitalization of human creation, including human image and model generation, motion, and interaction synthesis.

 

News

1. One paper about high efficiency and effective multi-person pose estimation was accepted to ICLR 2023!
2. One paper about the first one-stage high-performance 3D whole-body reconstruction framework and a relevant large-scale dataset with whole-body annotation was accepted to CVPR 2023!
3. One paper about a versatile human-centric dataset bridging natural and artificial scenes was accepted to CVPR 2023!

Open-source CV Data Platform

The Go-To Choice for CV Data Visualization, Annotation, and Model Analysis.

 

1.Deep Data Space (DDS) is an open-source platform that integrates CV data annotation, visualization, and model analysis, aiming to empower researchers and algorithm engineers in the computer vision field with a comprehensive workflow management

 

2.DDS provides rich and intelligent annotation tools with collaborative management to help users create high-quality datasets.

 

3.DDS provides an interactive data exploration platform for visualizing and analyzing datasets, helping users to gain insights into the data.

 

4.DDS provides dataset and model management tools to help users efficiently analyze the performance and defects of models, for better model optimization.

计算机视觉基础研究

大规模多模态表示学习

机器人

计算机视觉基础研究

研究大规模图像分类、物体检测、分割及跟踪、三维场景理解、视觉语言跨模态理解、零样本及小样本物体识别等问题,以及在应用中的模型优化和迁移学习。相关工作已发表:

● DAB-DETR:引入Anchor Box增加Query的可解释性
● DN-DETR:引入去噪任务加速DETR训练
● DINO:刷新COCO目标检测记录(COCO test-dev:63.3AP), 斩获榜单第一
● Mask DINO: 取得COCO多个图像分割任务SOTA结果

大规模多模态表示学习

研究大规模多模态数据中的视觉表示问题,以及如何有效地引入知识和结构信息,提高视觉表示的鲁棒性和可解释性。

● 研究大模型视觉表示学习,基于自主构建的超大规模多模态数据集和IDEA强大的算力平台以及自主研发的基础学习算法,在视觉表示相关任务上达到世界一流水平
● 推动视觉核心问题的进展,包括分类、检测、分割、跟踪、动作识别等问题,对学术领域做出显著贡献
● 由CVR独立申报的项目“面向通用预训练模型的超大规模多模态数据库”入围国家工业和信息化部“2021年人工智能产业创新任务揭榜挂帅项目”。将收集并构建超大规模图像、多模态数据集,并向社区开源,促进相关技术发展。

暂未公开

负责人

  • 张磊

    计算机视觉与机器人研究中心讲席科学家

    张磊博士任IDEA研究院计算机视觉与机器人研究中心讲席科学家、IEEE Fellow,曾任微软亚洲研究院、微软总部研究院首席研究员,长期带领研究组从事计算机视觉基础研究和大规模图像分析、物体检测、视觉语言多模态理解的应用研究,其研究成果广泛用于微软必应搜索及认知服务云计算平台。他在计算机视觉等相关领域发表论150多篇,并拥有60多项美国授权专利。

计算机视觉与机器人研究中心

日期:2022-11-06
  • 分享:
计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)立足于计算机视觉和机器人方向的基础研究,专注于大规模视觉表示学习、物体检测与识别、智能控制等问题,通过核心技术的研究和突破,打造世界领先的机器视觉和智能机器人技术。同时,CVR力图通过对技术和平台的开源来造福产业和基础科研。目前,CVR的开源方向主要包括detrex物体检测框架和Deep Data Space数据平台。

计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)立足于计算机视觉和机器人方向的基础研究,专注于大规模视觉表示学习、物体检测与识别、智能控制等问题,通过核心技术的研究和突破,打造世界领先的机器视觉和智能机器人技术。同时,CVR力图通过对技术和平台的开源来造福产业和基础科研。目前,CVR的开源方向主要包括detrex物体检测框架和Deep Data Space数据平台。

技术方向

AIGC

以人为中心的视觉分析

DDS数据平台

AIGC

Content creation is a hallmark of human intelligence and a long-standing challenge for machine learning algorithms.
At IDEA we explore frontiers of AI Generated Content (AIGC), from language to image, video, and 3D assets generation.

We believe that with AI techonology, anyone can create digital content that truly reflects their unique experiences, creativity and aesthetic preferences.

Human-centric computer vision

We focus on developing high-impact algorithms and data on human-centric visual understanding and perception to benefit broader applications. We have some active research directions, including 2d/3d human pose estimation/reconstruction/animation and human neural rendering.

Besides, we explore low-cost and expressive digitalization of human creation, including human image and model generation, motion, and interaction synthesis.

 

News

1. One paper about high efficiency and effective multi-person pose estimation was accepted to ICLR 2023!
2. One paper about the first one-stage high-performance 3D whole-body reconstruction framework and a relevant large-scale dataset with whole-body annotation was accepted to CVPR 2023!
3. One paper about a versatile human-centric dataset bridging natural and artificial scenes was accepted to CVPR 2023!

Open-source CV Data Platform

The Go-To Choice for CV Data Visualization, Annotation, and Model Analysis.

 

1.Deep Data Space (DDS) is an open-source platform that integrates CV data annotation, visualization, and model analysis, aiming to empower researchers and algorithm engineers in the computer vision field with a comprehensive workflow management

 

2.DDS provides rich and intelligent annotation tools with collaborative management to help users create high-quality datasets.

 

3.DDS provides an interactive data exploration platform for visualizing and analyzing datasets, helping users to gain insights into the data.

 

4.DDS provides dataset and model management tools to help users efficiently analyze the performance and defects of models, for better model optimization.

计算机视觉基础研究

大规模多模态表示学习

机器人

计算机视觉基础研究

研究大规模图像分类、物体检测、分割及跟踪、三维场景理解、视觉语言跨模态理解、零样本及小样本物体识别等问题,以及在应用中的模型优化和迁移学习。相关工作已发表:

● DAB-DETR:引入Anchor Box增加Query的可解释性
● DN-DETR:引入去噪任务加速DETR训练
● DINO:刷新COCO目标检测记录(COCO test-dev:63.3AP), 斩获榜单第一
● Mask DINO: 取得COCO多个图像分割任务SOTA结果

大规模多模态表示学习

研究大规模多模态数据中的视觉表示问题,以及如何有效地引入知识和结构信息,提高视觉表示的鲁棒性和可解释性。

● 研究大模型视觉表示学习,基于自主构建的超大规模多模态数据集和IDEA强大的算力平台以及自主研发的基础学习算法,在视觉表示相关任务上达到世界一流水平
● 推动视觉核心问题的进展,包括分类、检测、分割、跟踪、动作识别等问题,对学术领域做出显著贡献
● 由CVR独立申报的项目“面向通用预训练模型的超大规模多模态数据库”入围国家工业和信息化部“2021年人工智能产业创新任务揭榜挂帅项目”。将收集并构建超大规模图像、多模态数据集,并向社区开源,促进相关技术发展。

暂未公开

负责人

  • 张磊

    计算机视觉与机器人研究中心讲席科学家

    张磊博士任IDEA研究院计算机视觉与机器人研究中心讲席科学家、IEEE Fellow,曾任微软亚洲研究院、微软总部研究院首席研究员,长期带领研究组从事计算机视觉基础研究和大规模图像分析、物体检测、视觉语言多模态理解的应用研究,其研究成果广泛用于微软必应搜索及认知服务云计算平台。他在计算机视觉等相关领域发表论150多篇,并拥有60多项美国授权专利。