新闻动态

听见我们的声音

张磊

(清华大学 博士)

张磊博士为IEEE Fellow,现任IDEA数字经济研究院计算机视觉与机器人方向讲席科学家。他曾在微软亚洲研究院、微软总部研究院及计算机视觉相关产品部门任首席研究员,并长期带领研究组从事计算机视觉方向的基础研究,及其在大规模图像分析、物体检测、视觉语言多模态理解方面的应用,研究成果被广泛用于微软必应搜索及认知服务云计算平台。他在计算机视觉等相关领域发表论文150多篇,并拥有60多项美国授权专利,是计算机视觉领域的世界级专家。

视觉识别算法 百亿数据处理

张磊博士曾在微软工作了20年,主导和参与过大量研究项目。一直以来,张磊博士对大规模的视觉识别问题有着浓厚的兴趣和独特的思考,尤其是对如何利用海量的数据,从数据中挖掘隐含的视觉模式和结构的问题。

2013年,张磊博士发表重复图像聚类搜索算法解决论文《Duplicate Discovery on 2 Billion Internet Images》。这个论文中提出的算法在学术界和工业界都极具前沿性,对搜索引擎有巨大影响。

众所周知,传统的聚类算法复杂度基本是O(n²),在20亿量级的数据上采用传统方法进行聚类按当时的算力是无法做到的。论文中提出分而治之的策略:基于全图特征的哈希编码在数十亿图像中快速找到所有可能的重复图像聚类,并结合局部特征进行聚类生长和噪声清除。该策略的提出意味着在一个有2000个CPU的集群环境中,整个聚类过程可以在13个小时内完成。

论文中所提出的算法经过张磊博士和产品部门同事进一步的改进后,被用于必应图像搜索引擎中。该算法成为了整个图像索引底层数据处理的基础算法,每天都被用来处理上百亿的图像数据,进而改进图像搜索的质量。

以研究的力量 为社会创造美好

2020年,正是视觉领域开始关注如何通过大数据开展视觉表示学习的阶段,张磊博士在微软带领研究团队进行佛罗伦萨项目(Project Florence),即针对大数据条件下的视觉表示学习进行深入研究。该项目最终取得多项重要进展,包括几项在模型结构方面改进的研究工作,以及对微软视觉产品的直接贡献。

其中,发表在ECCV 2020上的视觉语言表示学习方面的研究工作《Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks》,在六项视觉语言任务上取得研究领域最好的结果,并且促进了后续发表在AAAI 2020上的研究工作《VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning》,在nocaps挑战赛上取得首次超过人类性能的结果。

这些研究工作在研究团队和工程团队的共同努力下,短短几个月就转化到Azure AI产品中。后续进一步用到Seeing AI中,供盲人或者视障人士免费使用,为社会带来更多积极的影响与美好的改变。

视觉与机器人 “看”懂 “想”透 “做”好

“视觉和机器人结合会产生更多研究问题,一个智能体能够‘看’懂、‘想’透、‘做’好,需要研究很多基础问题,任何突破都会对智能制造业带来巨大的影响。”

——张磊 博士

2021年6月,张磊博士加入IDEA,并任计算机视觉与机器人研究中心的讲席科学家及平台负责人。众所周知,张磊博士是计算机视觉领域的世界级专家。外人鲜少知道,在张磊博士进行博士深造之前,是国内最早一批参与室内移动机器人的研究人员。

独特的研发经历让张磊博士选择在计算机视觉与机器人专业领域进一步深耕,尽管现在机器人的技术有了天翻地覆的变化,但是张磊博士相信研究的本质是相似的。张磊博士在谈及对于机器视觉与机器人研究中心的看法与解读之时,发表了独特的见解,为了保留更原始的表达,以下将展示张磊老师的原话阐述。

以下为张磊博士的原话阐述:

计算机视觉是人工智能领域的基础问题,主要解决的是感知过程中“看”的问题,但也有很多需要“想”的问题。比如在图像中看到一只鹿,现在的算法基本是基于物体整个区域的特征“背”下来的识别,要想“解释”为什么这是一只鹿,哪个地方是头哪个地方是脚,是需要额外的数据和标注的。如果不能对结果给出很好的解释,就会给识别的鲁棒性带来很多问题,在对抗攻击样本面前真的会犯“指鹿为马”的错误。这些问题都是值得在视觉方向上进行深入研究的好问题。

另外,智能还包含“做”的问题,也就是机器人和外部环境进行物理交互的问题。视觉和机器人结合起来会产生更多有趣的研究问题,要一个智能体能够“看”懂、“想”透、“做”好,需要研究很多基础问题,任何问题的突破都会对产业尤其是智能制造业带来巨大的影响。

近几年来,不论是自然语言处理(NLP)领域还是计算机视觉领域都越来越关注基于大数据的表示学习问题,我们不断在论文中和新闻里看到不断刷新记录的模型规模和对算力的需求。同时,大模型也不断展示出超出以往性能的结果。另一方面,不管模型有多大,还是在很多地方会犯低级的错误。

这个趋势引发学术界和工业界很多的讨论,也促使我深入思考这个现象背后更本质的问题。通过深入地回顾机器学习背后的统计学习基础,我认为现在这个大数据大模型的方向是值得肯定的,因为它背后是有坚实的数学基础的,这个数学基础也就是泛函空间中的大数定律,这个定律告诉我们的是满足一定条件下,数据量趋于无穷大时,我们现在所用的函数拟合方法的收敛性。但是我们在实际问题中用到的数据量远远达不到无穷大的条件,也就是说,我们现在所谓的大数据模型训练,在统计学习的意义下,还只能算是小数据。要弥补这个问题,我们必须要更深入的研究表示学习的问题,研究在大数据学习的框架下如何引入结构和知识来提高机器学习的泛化能力,这将会是自然语言和视觉领域非常好的研究问题。

另外,视觉和机器人结合起来也会带来不一样的问题。大部分的视觉问题关心的都是被动视觉,不管是静止照片还是连续视频,计算机系统不会去影响物理世界的。但是机器人上有些问题就不太一样,机器人是可以动的,从一个角度看不清楚是可以移动一下换个角度来看的,甚至机器人的动作会改变当前环境的状态,这给视觉带来很多有趣的新问题。

此外,机器人本身也是非常有前景的方向。我们整个社会都在面临产业结构调整,机器人技术在智能制造业方面有着巨大的发挥空间。我们在这个领域中会重点研究室内环境中的移动机器人和工业环境中的智能机械手臂等技术,为新一代制造业赋能。

智能制造技术 为新一代制造业赋能

“以IDEA为舞台,借助自己在工业界与研究院多年的研究经验,深入研究视觉和人工智能中的基础问题,通过研究创新带动产业发展,为社会的数字经济发展做出有益的贡献。”

——张磊 博士

计算机视觉与机器人研究中心旨在通过基础研究推动视觉及机器人技术的成熟和普及,探索大数据条件下基于大模型的表示学习问题,同时引入知识和结构来改进深度学习模型的推理和泛化能力,围绕智能制造业机器人所需的主动视觉和强化学习问题,研究更普适、更鲁棒、可解释的智能技术,从而打造智能制造业为代表的「工业AI」,为新一代制造业赋能。

视觉表示学习

研究方向 1

视觉表示学习,研究大规模多模态数据中的视觉表示问题,以及如何有效地引入知识和结构信息,提高视觉表示的鲁棒性和可解释性。

计算机视觉领域有非常多样化的问题,比如图像分类、物体检测、分割及跟踪、三维场景理解、视觉语言跨模态理解等。在众多问题中,表示学习是更为核心的问题,也是近来受到视觉和机器学习领域共同关注的问题。

虽然计算机视觉在过去几年中取得了显著的进展,视觉算法还面临很多挑战,譬如缺乏可解释性、易受对抗攻击等。解决这些问题,我们需要研究如何从大规模的复杂数据(包括文本、图像和视频)中学习和分析数据背后隐含的本质规律,并从机器学习的角度对数据的隐含规律进行数学表示方面的研究,研究如何有效地引入知识和结构信息,提高视觉表示的鲁棒性和可解释性,并对视觉领域中的分类、检测、分割、跟踪等核心问题带来更全面的改进,在很多具体场景中产生实际的应用价值。

超大规模机器学习平台

研究方向 2

超大规模机器学习平台,研究系统级别的机器学习算法优化,分布式环境下的数据并行、模型并行、数值计算分析、优化算法等关键问题,有效提高大规模模型训练效率。

视觉领域中的基础问题,研究大规模图像分类、物体检测、分割及跟踪、三维场景理解、视觉语言跨模态理解、零样本及小样本物体识别等问题,以及在应用中的模型优化和迁移学习。

大数据大模型正在视觉领域中成为越来越重要的研究方向,这其实是我们在不断地验证统计学习中的大数定律。

研究领域一定会朝着两个方向去走,一个是我们前面讲到的引入结构和知识使得我们能够更加有效地利用数据,另一个是不断增加数据和模型规模来探测算法性能的边界,这两个方向往往也需要交织着同时往前走。

正如在NLP领域一样,大模型训练给机器学习带来很多系统级的问题,比如如何用尽可能少的GPU训练出尽可能大的模型。因此,我们会针对视觉中的问题研究系统级别的机器学习算法优化,通过改进多机多卡环境下的数据并行、模型并行、数值计算分析、优化算法等关键问题,在上千卡的环境下实现大规模高效率的模型训练,并通过开源模式为研究领域提供最新技术。

新一代智能机器人技术

研究方向 3

新一代智能机器人技术,研究制造业环境中机器人手臂和移动机器人的主动视觉、强化学习、智能控制等问题,为工业人工智能赋能。

中国正在进入工业自动化以及制造业现代化的重要阶段,亟需更普适、更鲁棒的智能技术。我们将会依托深圳在科技和制造业方面国际范围独有的优势,结合计算机视觉研究智能机器人方面的关键技术,研究制造业环境中机器人手臂和移动机器人所需的主动视觉、强化学习、智能控制等问题,通过核心技术的研究和突破培育一系列世界领先的智能制造机器人技术,并结合深圳的制造业打造新一代的智能制造机器人产品。

携手同行共进 推动人类AI技术发展

作为计算机视觉与机器人研究中心的讲席科学家,张磊博士将带领团队,在计算机视觉领域与智能制作机器人领域进行前沿探索,突破培育一系列世界领先的智能技术,最终实现“为全社会从包括AI技术在内的新一代智能技术中普遍受益”的任务及愿景。

未来,张磊博士将与IDEA及科研同仁在不断交流磨合的同时,亦携手向同一个目标共进。为推动人类AI技术发展,立足社会需求研发颠覆式创新技术回馈社会,让更多的人从数字经济发展中获益而努力,这是IDEA的使命,也是这里每位科研人员的责任与追求。

除了张磊博士外,IDEA目前已聚集一批包括前哈佛教授、前微软技术高管在内的国际一流技术专家,共同致力于在数字经济核心领域产生国际顶尖的研发成果并培育一批国际顶级的高科技企业,带动深圳和大湾区万亿级人工智能与数字经济产业发展。

“去做你真正喜欢的事情,并坚持自己的目标。把事情做到极致,收获会随之而来”

——张磊 博士

张磊博士,打造能“看”懂、“想”透、“做”好的智能体

日期:2021-08-16
  • 分享:
打造新一代计算机视觉和智能机器人技术

张磊

(清华大学 博士)

张磊博士为IEEE Fellow,现任IDEA数字经济研究院计算机视觉与机器人方向讲席科学家。他曾在微软亚洲研究院、微软总部研究院及计算机视觉相关产品部门任首席研究员,并长期带领研究组从事计算机视觉方向的基础研究,及其在大规模图像分析、物体检测、视觉语言多模态理解方面的应用,研究成果被广泛用于微软必应搜索及认知服务云计算平台。他在计算机视觉等相关领域发表论文150多篇,并拥有60多项美国授权专利,是计算机视觉领域的世界级专家。

视觉识别算法 百亿数据处理

张磊博士曾在微软工作了20年,主导和参与过大量研究项目。一直以来,张磊博士对大规模的视觉识别问题有着浓厚的兴趣和独特的思考,尤其是对如何利用海量的数据,从数据中挖掘隐含的视觉模式和结构的问题。

2013年,张磊博士发表重复图像聚类搜索算法解决论文《Duplicate Discovery on 2 Billion Internet Images》。这个论文中提出的算法在学术界和工业界都极具前沿性,对搜索引擎有巨大影响。

众所周知,传统的聚类算法复杂度基本是O(n²),在20亿量级的数据上采用传统方法进行聚类按当时的算力是无法做到的。论文中提出分而治之的策略:基于全图特征的哈希编码在数十亿图像中快速找到所有可能的重复图像聚类,并结合局部特征进行聚类生长和噪声清除。该策略的提出意味着在一个有2000个CPU的集群环境中,整个聚类过程可以在13个小时内完成。

论文中所提出的算法经过张磊博士和产品部门同事进一步的改进后,被用于必应图像搜索引擎中。该算法成为了整个图像索引底层数据处理的基础算法,每天都被用来处理上百亿的图像数据,进而改进图像搜索的质量。

以研究的力量 为社会创造美好

2020年,正是视觉领域开始关注如何通过大数据开展视觉表示学习的阶段,张磊博士在微软带领研究团队进行佛罗伦萨项目(Project Florence),即针对大数据条件下的视觉表示学习进行深入研究。该项目最终取得多项重要进展,包括几项在模型结构方面改进的研究工作,以及对微软视觉产品的直接贡献。

其中,发表在ECCV 2020上的视觉语言表示学习方面的研究工作《Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks》,在六项视觉语言任务上取得研究领域最好的结果,并且促进了后续发表在AAAI 2020上的研究工作《VIVO: Visual Vocabulary Pre-Training for Novel Object Captioning》,在nocaps挑战赛上取得首次超过人类性能的结果。

这些研究工作在研究团队和工程团队的共同努力下,短短几个月就转化到Azure AI产品中。后续进一步用到Seeing AI中,供盲人或者视障人士免费使用,为社会带来更多积极的影响与美好的改变。

视觉与机器人 “看”懂 “想”透 “做”好

“视觉和机器人结合会产生更多研究问题,一个智能体能够‘看’懂、‘想’透、‘做’好,需要研究很多基础问题,任何突破都会对智能制造业带来巨大的影响。”

——张磊 博士

2021年6月,张磊博士加入IDEA,并任计算机视觉与机器人研究中心的讲席科学家及平台负责人。众所周知,张磊博士是计算机视觉领域的世界级专家。外人鲜少知道,在张磊博士进行博士深造之前,是国内最早一批参与室内移动机器人的研究人员。

独特的研发经历让张磊博士选择在计算机视觉与机器人专业领域进一步深耕,尽管现在机器人的技术有了天翻地覆的变化,但是张磊博士相信研究的本质是相似的。张磊博士在谈及对于机器视觉与机器人研究中心的看法与解读之时,发表了独特的见解,为了保留更原始的表达,以下将展示张磊老师的原话阐述。

以下为张磊博士的原话阐述:

计算机视觉是人工智能领域的基础问题,主要解决的是感知过程中“看”的问题,但也有很多需要“想”的问题。比如在图像中看到一只鹿,现在的算法基本是基于物体整个区域的特征“背”下来的识别,要想“解释”为什么这是一只鹿,哪个地方是头哪个地方是脚,是需要额外的数据和标注的。如果不能对结果给出很好的解释,就会给识别的鲁棒性带来很多问题,在对抗攻击样本面前真的会犯“指鹿为马”的错误。这些问题都是值得在视觉方向上进行深入研究的好问题。

另外,智能还包含“做”的问题,也就是机器人和外部环境进行物理交互的问题。视觉和机器人结合起来会产生更多有趣的研究问题,要一个智能体能够“看”懂、“想”透、“做”好,需要研究很多基础问题,任何问题的突破都会对产业尤其是智能制造业带来巨大的影响。

近几年来,不论是自然语言处理(NLP)领域还是计算机视觉领域都越来越关注基于大数据的表示学习问题,我们不断在论文中和新闻里看到不断刷新记录的模型规模和对算力的需求。同时,大模型也不断展示出超出以往性能的结果。另一方面,不管模型有多大,还是在很多地方会犯低级的错误。

这个趋势引发学术界和工业界很多的讨论,也促使我深入思考这个现象背后更本质的问题。通过深入地回顾机器学习背后的统计学习基础,我认为现在这个大数据大模型的方向是值得肯定的,因为它背后是有坚实的数学基础的,这个数学基础也就是泛函空间中的大数定律,这个定律告诉我们的是满足一定条件下,数据量趋于无穷大时,我们现在所用的函数拟合方法的收敛性。但是我们在实际问题中用到的数据量远远达不到无穷大的条件,也就是说,我们现在所谓的大数据模型训练,在统计学习的意义下,还只能算是小数据。要弥补这个问题,我们必须要更深入的研究表示学习的问题,研究在大数据学习的框架下如何引入结构和知识来提高机器学习的泛化能力,这将会是自然语言和视觉领域非常好的研究问题。

另外,视觉和机器人结合起来也会带来不一样的问题。大部分的视觉问题关心的都是被动视觉,不管是静止照片还是连续视频,计算机系统不会去影响物理世界的。但是机器人上有些问题就不太一样,机器人是可以动的,从一个角度看不清楚是可以移动一下换个角度来看的,甚至机器人的动作会改变当前环境的状态,这给视觉带来很多有趣的新问题。

此外,机器人本身也是非常有前景的方向。我们整个社会都在面临产业结构调整,机器人技术在智能制造业方面有着巨大的发挥空间。我们在这个领域中会重点研究室内环境中的移动机器人和工业环境中的智能机械手臂等技术,为新一代制造业赋能。

智能制造技术 为新一代制造业赋能

“以IDEA为舞台,借助自己在工业界与研究院多年的研究经验,深入研究视觉和人工智能中的基础问题,通过研究创新带动产业发展,为社会的数字经济发展做出有益的贡献。”

——张磊 博士

计算机视觉与机器人研究中心旨在通过基础研究推动视觉及机器人技术的成熟和普及,探索大数据条件下基于大模型的表示学习问题,同时引入知识和结构来改进深度学习模型的推理和泛化能力,围绕智能制造业机器人所需的主动视觉和强化学习问题,研究更普适、更鲁棒、可解释的智能技术,从而打造智能制造业为代表的「工业AI」,为新一代制造业赋能。

视觉表示学习

研究方向 1

视觉表示学习,研究大规模多模态数据中的视觉表示问题,以及如何有效地引入知识和结构信息,提高视觉表示的鲁棒性和可解释性。

计算机视觉领域有非常多样化的问题,比如图像分类、物体检测、分割及跟踪、三维场景理解、视觉语言跨模态理解等。在众多问题中,表示学习是更为核心的问题,也是近来受到视觉和机器学习领域共同关注的问题。

虽然计算机视觉在过去几年中取得了显著的进展,视觉算法还面临很多挑战,譬如缺乏可解释性、易受对抗攻击等。解决这些问题,我们需要研究如何从大规模的复杂数据(包括文本、图像和视频)中学习和分析数据背后隐含的本质规律,并从机器学习的角度对数据的隐含规律进行数学表示方面的研究,研究如何有效地引入知识和结构信息,提高视觉表示的鲁棒性和可解释性,并对视觉领域中的分类、检测、分割、跟踪等核心问题带来更全面的改进,在很多具体场景中产生实际的应用价值。

超大规模机器学习平台

研究方向 2

超大规模机器学习平台,研究系统级别的机器学习算法优化,分布式环境下的数据并行、模型并行、数值计算分析、优化算法等关键问题,有效提高大规模模型训练效率。

视觉领域中的基础问题,研究大规模图像分类、物体检测、分割及跟踪、三维场景理解、视觉语言跨模态理解、零样本及小样本物体识别等问题,以及在应用中的模型优化和迁移学习。

大数据大模型正在视觉领域中成为越来越重要的研究方向,这其实是我们在不断地验证统计学习中的大数定律。

研究领域一定会朝着两个方向去走,一个是我们前面讲到的引入结构和知识使得我们能够更加有效地利用数据,另一个是不断增加数据和模型规模来探测算法性能的边界,这两个方向往往也需要交织着同时往前走。

正如在NLP领域一样,大模型训练给机器学习带来很多系统级的问题,比如如何用尽可能少的GPU训练出尽可能大的模型。因此,我们会针对视觉中的问题研究系统级别的机器学习算法优化,通过改进多机多卡环境下的数据并行、模型并行、数值计算分析、优化算法等关键问题,在上千卡的环境下实现大规模高效率的模型训练,并通过开源模式为研究领域提供最新技术。

新一代智能机器人技术

研究方向 3

新一代智能机器人技术,研究制造业环境中机器人手臂和移动机器人的主动视觉、强化学习、智能控制等问题,为工业人工智能赋能。

中国正在进入工业自动化以及制造业现代化的重要阶段,亟需更普适、更鲁棒的智能技术。我们将会依托深圳在科技和制造业方面国际范围独有的优势,结合计算机视觉研究智能机器人方面的关键技术,研究制造业环境中机器人手臂和移动机器人所需的主动视觉、强化学习、智能控制等问题,通过核心技术的研究和突破培育一系列世界领先的智能制造机器人技术,并结合深圳的制造业打造新一代的智能制造机器人产品。

携手同行共进 推动人类AI技术发展

作为计算机视觉与机器人研究中心的讲席科学家,张磊博士将带领团队,在计算机视觉领域与智能制作机器人领域进行前沿探索,突破培育一系列世界领先的智能技术,最终实现“为全社会从包括AI技术在内的新一代智能技术中普遍受益”的任务及愿景。

未来,张磊博士将与IDEA及科研同仁在不断交流磨合的同时,亦携手向同一个目标共进。为推动人类AI技术发展,立足社会需求研发颠覆式创新技术回馈社会,让更多的人从数字经济发展中获益而努力,这是IDEA的使命,也是这里每位科研人员的责任与追求。

除了张磊博士外,IDEA目前已聚集一批包括前哈佛教授、前微软技术高管在内的国际一流技术专家,共同致力于在数字经济核心领域产生国际顶尖的研发成果并培育一批国际顶级的高科技企业,带动深圳和大湾区万亿级人工智能与数字经济产业发展。

“去做你真正喜欢的事情,并坚持自己的目标。把事情做到极致,收获会随之而来”

——张磊 博士