研究中心介绍
计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)立足于计算机视觉和机器人方向的基础研究,专注于大规模视觉表示学习、物体检测与识别、智能控制等问题,通过核心技术的研究和突破,打造世界领先的机器视觉和智能机器人技术。同时,CVR力图通过对技术和平台的开源来造福产业和基础科研。目前,CVR的开源方向主要包括detrex物体检测框架和Deep Data Space数据平台。
技术方向
大规模多模态表示学习
研究大规模多模态数据中的视觉表示问题,以及如何有效地引入知识和结构信息,提高视觉表示的鲁棒性和可解释性。
● 研究大模型视觉表示学习,基于自主构建的超大规模多模态数据集和IDEA强大的算力平台以及自主研发的基础学习算法,在视觉表示相关任务上达到世界一流水平
● 推动视觉核心问题的进展,包括分类、检测、分割、跟踪、动作识别等问题,对学术领域做出显著贡献
● 由CVR独立申报的项目“面向通用预训练模型的超大规模多模态数据库”入围国家工业和信息化部“2021年人工智能产业创新任务揭榜挂帅项目”。将收集并构建超大规模图像、多模态数据集,并向社区开源,促进相关技术发展。
计算机视觉基础研究
研究大规模图像分类、物体检测、分割及跟踪、三维场景理解、视觉语言跨模态理解、零样本及小样本物体识别等问题,以及在应用中的模型优化和迁移学习。相关工作已发表:
● DAB-DETR [ICLR 2022]:引入Anchor Box增加Query的可解释性
● DN-DETR [CVPR 2022]:引入去噪任务加速DETR训练
● DINO [ICLR 2023]:刷新COCO目标检测记录(COCO test-dev:63.3AP), 斩获榜单第一
● Mask DINO [CVPR 2023]:取得COCO多个图像分割任务SOTA结果
基于深度学习的以人为中心的计算机视觉
● 以人为中心的感知任务,包括但不限于:二维/三维人体姿态估计,人体重建,人体动作驱动。
● 以人为中心的生成任务,包括但不限于:多模态的人物图片/三维人物的生成,及人物动作的生成。相关前沿技术的研究可以不断优化传统动捕行业的制作流程并降低制作周期和成本,为游戏、动画、泛娱乐场景提供高质量技术支持。
● 以人为中心的交互式模型,提供高效率、高精度的多模态人物交互式标注模型。
最新进展
● ED-Pose [ICLR 2023]:关于高效率、高精度的一阶段2D多人姿势估计
● OSX [CVPR 2023]:第一个一阶段高性能3D全身重建框架和具有全身标注的相关大规模真实场景数据集的论文OSX被CVPR 2023接收
● Human-Art [CVPR 2023]:关于连接自然和人工场景的多功能以人为中心的数据集
开源计算机视觉数据工具平台
计算机视觉领域数据可视化、标注与模型分析的不二选择
Deep Data Space (DDS)是一个集成数据集标注、可视化、模型分析于一体的开源工具平台,为计算机视觉领域研究员和算法工程师的全工作流程助力赋能。
● 提供丰富、智能的标注工具,且支持协同化流程管理,帮助用户创建高质量的数据集。
● 提供交互式数据可视化功能,帮助用户分析、挖掘数据的各项特征。
● 提供数据集及模型管理功能,帮助用户高效地分析相关模型的性能和缺陷,以更好地优化模型。
AIGC
● 内容创造是人类智慧的标志和体现,也是机器学习算法长期以来面临的挑战。
● 在IDEA,我们探索AI内容生成(AIGC)的前沿,涵盖了从自然语言到图像、视频和3D内容的生成。
● 我们相信借助AI技术,任何人都可以创造出真正反映个人独特经历、创造力和审美的数字内容。
新一代产业机器人研发
● 本项目致力研发机器人领域新科技,如多传感器定位、规划控制算法、电气与机械设计等,结合CVR中心的全球领先视觉技术,推动工业、农业机械的信息化、自动化和智能化。
● 打通产业机器人与后端软件平台、智能AI模型、大数据分析平台等的无缝连接,实现从从田间与流水线边一直贯穿到云端科技的智能化。
● 专注智能科技产业化,让科研成果为AI研发工程师赋能,工程师为商家赋能,商家为产业中的从业者赋能。
研究中心介绍
计算机视觉与机器人研究中心(CVR,Computer Vision and Robotics)立足于计算机视觉和机器人方向的基础研究,专注于大规模视觉表示学习、物体检测与识别、智能控制等问题,通过核心技术的研究和突破,打造世界领先的机器视觉和智能机器人技术。同时,CVR力图通过对技术和平台的开源来造福产业和基础科研。目前,CVR的开源方向主要包括detrex物体检测框架和Deep Data Space数据平台。
技术方向
大规模多模态表示学习
研究大规模多模态数据中的视觉表示问题,以及如何有效地引入知识和结构信息,提高视觉表示的鲁棒性和可解释性。
● 研究大模型视觉表示学习,基于自主构建的超大规模多模态数据集和IDEA强大的算力平台以及自主研发的基础学习算法,在视觉表示相关任务上达到世界一流水平
● 推动视觉核心问题的进展,包括分类、检测、分割、跟踪、动作识别等问题,对学术领域做出显著贡献
● 由CVR独立申报的项目“面向通用预训练模型的超大规模多模态数据库”入围国家工业和信息化部“2021年人工智能产业创新任务揭榜挂帅项目”。将收集并构建超大规模图像、多模态数据集,并向社区开源,促进相关技术发展。
计算机视觉基础研究
研究大规模图像分类、物体检测、分割及跟踪、三维场景理解、视觉语言跨模态理解、零样本及小样本物体识别等问题,以及在应用中的模型优化和迁移学习。相关工作已发表:
● DAB-DETR [ICLR 2022]:引入Anchor Box增加Query的可解释性
● DN-DETR [CVPR 2022]:引入去噪任务加速DETR训练
● DINO [ICLR 2023]:刷新COCO目标检测记录(COCO test-dev:63.3AP), 斩获榜单第一
● Mask DINO [CVPR 2023]:取得COCO多个图像分割任务SOTA结果
基于深度学习的以人为中心的计算机视觉
● 以人为中心的感知任务,包括但不限于:二维/三维人体姿态估计,人体重建,人体动作驱动。
● 以人为中心的生成任务,包括但不限于:多模态的人物图片/三维人物的生成,及人物动作的生成。相关前沿技术的研究可以不断优化传统动捕行业的制作流程并降低制作周期和成本,为游戏、动画、泛娱乐场景提供高质量技术支持。
● 以人为中心的交互式模型,提供高效率、高精度的多模态人物交互式标注模型。
最新进展
● ED-Pose [ICLR 2023]:关于高效率、高精度的一阶段2D多人姿势估计
● OSX [CVPR 2023]:第一个一阶段高性能3D全身重建框架和具有全身标注的相关大规模真实场景数据集的论文OSX被CVPR 2023接收
● Human-Art [CVPR 2023]:关于连接自然和人工场景的多功能以人为中心的数据集
开源计算机视觉数据工具平台
计算机视觉领域数据可视化、标注与模型分析的不二选择
Deep Data Space (DDS)是一个集成数据集标注、可视化、模型分析于一体的开源工具平台,为计算机视觉领域研究员和算法工程师的全工作流程助力赋能。
● 提供丰富、智能的标注工具,且支持协同化流程管理,帮助用户创建高质量的数据集。
● 提供交互式数据可视化功能,帮助用户分析、挖掘数据的各项特征。
● 提供数据集及模型管理功能,帮助用户高效地分析相关模型的性能和缺陷,以更好地优化模型。
AIGC
● 内容创造是人类智慧的标志和体现,也是机器学习算法长期以来面临的挑战。
● 在IDEA,我们探索AI内容生成(AIGC)的前沿,涵盖了从自然语言到图像、视频和3D内容的生成。
● 我们相信借助AI技术,任何人都可以创造出真正反映个人独特经历、创造力和审美的数字内容。
新一代产业机器人研发
● 本项目致力研发机器人领域新科技,如多传感器定位、规划控制算法、电气与机械设计等,结合CVR中心的全球领先视觉技术,推动工业、农业机械的信息化、自动化和智能化。
● 打通产业机器人与后端软件平台、智能AI模型、大数据分析平台等的无缝连接,实现从从田间与流水线边一直贯穿到云端科技的智能化。
● 专注智能科技产业化,让科研成果为AI研发工程师赋能,工程师为商家赋能,商家为产业中的从业者赋能。