IDEA 团队

首页 > IDEA 团队 > 张磊
张磊

张磊

计算机视觉与机器人研究中心负责人

研究领域

计算机视觉基础研究
大规模图像分析和物体检测
视觉语言多模态理解应用研究
三维空间感知与交互技术(空间智能)

教育背景

清华大学本科、硕士、博士

个人简介

张磊曾在微软总部研究院担任首席研究员,研究成果被广泛用于微软必应搜索及认知服务云计算平台。其在国际顶会和期刊上共计发表 CV 领域论文 200 多篇,Google Scholar 引用超过 67000 多次,H-Index 103,拥有 60 多项美国授权专利,并因对大规模图像识别和多媒体信息检索方面做出的杰出贡献,获选为 IEEE Fellow。

张磊不仅在粤港澳大湾区数字经济研究院计算机视觉与机器人研究中心(IDEA CVR)带领科研团队进行前沿模型理论研究,同时担任 IDEA 孵化企业视启未来(Visincept)的创始人兼 CEO,推动模型科研成果商业化落地。

张磊团队长期进行多模态视觉模型的研究,致力于提升模型视觉感知能力。团队自主研发的初代 DINO 模型,推出当年便在 COCO 目标检测榜单持续霸榜 5 个月;其后的 Grounding DINO 开集检测模型,被 PaperDigest 列为 2024 年 ECCV 最具影响力论文。这些技术积累为通用视觉模型 DINO-X 的诞生奠定了基础,由此打开了开放世界感知和物体级理解的大门。

2025 年,张磊带领的 DINO-X 团队完成孵化,全力投入基于 DINO-X 的空间智能模型研究与商业化落地。

研究项目

DINO-X:面向开放世界的检测与理解统一视觉模型

DINO-X 视觉大模型拥有强大的开放世界检测能力,在 COCO/LVIS-minival/LVIS-val 等权威测试集的综合性能领先。其不仅同时支持文本提示、视觉提示和自定义提示作为输入,还集成了检测、分割、人体姿态、文字识别等多种视觉任务。

此外,DINO-X 有着出色的可扩展性。针对长尾场景以及罕见物品,依托于 DINO-X 模型延展的定制模板功能,仅需少量数据即可达到定制模型的精度,无需额外的开发成本,真正实现“一个模型识别万物”。

DINO-X实时视频理解端侧 AI

DINO-X 多模态视频理解模型在 DINO-X 2D 目标检测技术的基础上,融合图像、文字等多模态信息,实现对动态视频中目标物体、行为和场景的深度理解,大幅提升场景智能化体验。

该模型还支持部署在 NVIDIA Jetson Orin Nano Super 等端侧平台或小型设备上,提供高效实时的推理体验。

DINO-XGrasp:机械臂的具身大脑

DINO-XGrasp 万物抓取模型凭借万物检测的泛化优势,驱动机械臂精准识别三维空间中的各类物体,实现自主抓取、长程操作与精准定位,可应用于工业自动化、智能巡检等场景,完成对复杂空间的自主交互任务。

学术论文