日前，国家工业和信息化部“2021 年人工智能产业创新任务揭榜挂帅项目”入围名单正式揭晓，由 IDEA 研究院计算机视觉与机器人研究中心（简称 IDEA 研究院 CVR）独立申报的项目“面向通用预训练模型的超大规模多模态数据库”，经过专家预审、评审、答辩等环节后，最终成功入围。

近年来，预训练大模型大行其道，正成为人工智能赋能各行各业的基础设施。面向通用预训练模型的超大规模数据集，更是“基础设施的基础资源” 。此次 IDEA 研究院 CVR 的入围项目，正是“公共支撑”创新任务中的“人工智能训练资源库”。

具有自主知识产权的超大规模数据集

是人工智能发展的基础设施

目前，计算机视觉领域的主要大规模数据集多出自谷歌、OpenAI、微软等企业和研究机构，而过去几年的研究进展说明，更大的数据集对通用预训练模型及其下游各种应用的性能、质量有显著提升，并能推动更多人工智能模型在产业领域落地应用。我国 2015 年起，已将大数据提升到国家战略资源规划层面，未来，大数据相关软硬件技术将继续快速发展。

计算机视觉领域的主要大规模数据集

对一般科研机构和中小企业来说，超大规模数据集的构建工作有非常高的门槛。一方面是由于人工智能作为科技竞争的高地，国际上各大公司长期在此领域投资，不断有更大规模的数据集问世。另一方面，构造超大规模数据集需要科研机构和企业负担高昂成本，大数据大模型“烧钱”已成为业界的普遍共识。

基于对未来 20 年中国经济将面临的挑战与机遇的思考，IDEA 研究院组建了相应的研发团队，团队成员具有丰富的图像及多模态数据集构建和使用经验，同时投资建立了大规模数据中心存储和处理数据。IDEA 研究院 CVR 计划构造的超大规模数据资源库及其软硬件服务系统，目标是在数据数量和质量两个方面赶超国际先进水准，同时建设包括数据管理、服务、安全等维度全面自有的软硬件系统。该数据库面向大规模通用预训练模型，将最大限度提高人工智能在实际应用中的效能，并在构建过程中为我国大数据、人工智能行业培养高素质人才。

“揭榜”人工智能产业创新任务

IDEA 研究院 CVR 尖兵 “挂帅”

项目负责人：张磊博士

（IEEE Fellow、 IDEA 研究院计算机视觉与机器人研究中心讲席科学家）

他曾在微软亚洲研究院、微软总部研究院及计算机视觉相关产品部门任首席研究员，长期带领研究组从事计算机视觉方向的基础研究，包括大规模图像分析、物体检测、视觉语言多模态理解等。

他主导构建过多个大规模图像及多模态数据集，其中 MS-Celeb 1M 是世界最大开源人脸识别训练数据集，在人脸识别研究领域具有很大影响力。他在计算机视觉、多媒体等相关领域发表论文 150 多篇，拥有 60 余项美国授权专利，是人工智能领域的世界级专家。

“揭榜”团队成员拥有微软、DeepMind、腾讯、平安、虎牙等研究与工作经历。他们在过往的研究工作中搭建过多个大规模图像及多模态数据集，且基于数据已做过大量基础性研究工作，并在顶级学术会议期刊上发表过数十篇相关研究成果。同时，算法研究和数据集构建是一个相辅相成的过程，数据质量最终要在基于大模型训练的表示学习中得到验证，早期迭代将非常有助于提高数据质量，该团队在这些方面具有非常好的技术和经验基础。

一图了解面向通用预训练模型的

超大规模多模态数据库

“面向通用预训练模型的超大规模多模态数据库”项目聚焦于超大规模数据资源库的研发，致力于收集高质量超大规模图像及多模态数据。

项目主要流程

同时，项目团队将基于该数据资源库，建立基础性数据服务平台，作为创新基础设施和多种服务的支撑平台，以支持多种视觉及多模态任务（如物体检测、语义分割、图像描述、图像搜索、图文互搜，基于文本的图像生成等）的数据分析和模型训练任务，为我国人工智能产业的发展添砖加瓦。

计算机视觉与机器人研究中心入围工信部“2021年人工智能产业创新任务揭榜挂帅”名单

返回新闻动态

日期：2022-07-08

打造面向通用预训练模型的超大规模多模态数据库

具有自主知识产权的超大规模数据集

是人工智能发展的基础设施

计算机视觉领域的主要大规模数据集

“揭榜”人工智能产业创新任务

IDEA 研究院 CVR 尖兵 “挂帅”

项目负责人：张磊博士

（IEEE Fellow、 IDEA 研究院计算机视觉与机器人研究中心讲席科学家）

一图了解面向通用预训练模型的

超大规模多模态数据库

“面向通用预训练模型的超大规模多模态数据库”项目聚焦于超大规模数据资源库的研发，致力于收集高质量超大规模图像及多模态数据。

项目主要流程

上一篇港科大（广州）与IDEA研究院共建联培博士生项目“IDEA班”，培养国际拔尖创新人才

下一篇BIOS重磅更新！千万级医学知识图谱正式发布

新闻动态

听见我们的声音

具有自主知识产权的超大规模数据集

是人工智能发展的基础设施

计算机视觉领域的主要大规模数据集

“揭榜”人工智能产业创新任务

IDEA 研究院 CVR 尖兵 “挂帅”

项目负责人：张磊博士

（IEEE Fellow、 IDEA 研究院计算机视觉与机器人研究中心讲席科学家）

一图了解面向通用预训练模型的

超大规模多模态数据库

项目主要流程

计算机视觉与机器人研究中心入围工信部“2021年人工智能产业创新任务揭榜挂帅”名单

具有自主知识产权的超大规模数据集

是人工智能发展的基础设施

计算机视觉领域的主要大规模数据集

“揭榜”人工智能产业创新任务

IDEA 研究院 CVR 尖兵 “挂帅”

项目负责人：张磊博士

（IEEE Fellow、 IDEA 研究院计算机视觉与机器人研究中心讲席科学家）

一图了解面向通用预训练模型的

超大规模多模态数据库

项目主要流程

地址：

办公电话：

招聘邮箱：

办公电话：