IDEA 研究院孵化企业视启未来连续发力刷新 3D 感知模型新纪录（SOTA），先后发布 SegDINO3D、OVSeg3R 和 SceneMaker 三款 SOTA 模型，并推出 MaaS（模型即服务）、多模态视频理解模型以及 DINO-XGrasp 万物抓取模型三大技术落地载体，将前沿研究成果系统性转化为可交付、可规模化的产品能力。

三款 SOTA 模型
领跑 3D 赛道

依托 DINO-X 通用视觉大模型的底层技术积淀，视启未来团队针对 3D 感知领域长期存在的“数据标注成本高、场景适配局限、场景理解与重建能力不足”三大核心痛点，先后推出 SegDINO3D、OVSeg3R 和 SceneMaker 三款 SOTA 模型，形成从 3D 检测到 3D 场景重建的全链路技术突破。

SegDINO3D 聚焦 3D 实例分割的核心瓶颈，创新性地利用 2D 先验知识自动生成 3D 标注，无需依赖海量人工标注的 3D 数据，同时解决传统方法内存消耗过大的问题，为 3D 开放世界实现智能检测提供关键技术底座。
OVSeg3R 在 SegDINO3D 基础上实现迭代升级，进一步破解 3D 实例分割中闭集局限、长尾类与头部类性能失衡及标注需人工后处理的难题，大幅降低训练成本的同时，实现开集 3D 实例分割的性能飞跃，显著缩小长尾类与头部类的性能差距。
SceneMaker 3D 场景生成框架由视启未来联合港科大初创团队光影焕像共同推出，聚焦 3D 场景理解与重建的薄弱环节，通过解耦去遮挡模块、优化位姿估计机制，依托自建大规模开放世界 3D 场景数据集，打破传统 3D 场景生成局限于室内场景和有限物体类别的困境，实现任意开放世界图像的精准 3D 场景重建，有效解决遮挡物体还原不完整、位姿估计偏差等问题，为计算机感知和建模真实世界（Real-to-Sim）领域带来重大突破。

三款模型连续刷新 3D 感知模型全球基准测试纪录，完善了 3D 感知全链路技术体系，为依赖精准 3D 环境感知和物体交互识别的工业自动化、自动驾驶、具身智能等多个领域的场景化应用提供了核心技术支撑。

SegDINO3D 刷新 ScanNet200，实现闭集模型性能飞跃

OVSeg3R 打破 3D 感知瓶颈，实现 3D 开集检测

SceneMaker 生成开放世界场景

论文地址
SegDINO3D
OVSeg3R
SceneMaker

技术产品化落地
打造数据增长飞轮

从 2D 万物检测到 3D 感知的技术发展路径中，团队深入洞察产业实际需求，提取出三个核心的技术关键点进行产品化，依次推出 MaaS（模型即服务）、多模态视频理解模型以及 DINO-XGrasp 万物抓取模型三大技术落地载体，解决企业轻量化模型复用、提升场景智能体验、工业自动化等智能化需求，并构建“技术研发-场景落地-数据反哺-技术升级”的数据增长飞轮，以场景数据驱动模型迭代、以迭代技术赋能场景拓展，推动视觉模型向下一级关键技术节点进化，加速迈向空间智能。

MaaS 服务深度整合 DINO-X 系列视觉大模型核心能力，以 API 接口与基于 2D 检测模型构建的原生应用为输出形态，实现技术能力的轻量化输出。通过将万物检测的底层能力嵌入各类场景化应用中，团队在高效输出技术价值的同时，持续捕获不同场景下的真实视觉数据，反哺模型算法优化，并为未来场景积累数据储备。

多模态视频理解模型则承接 2D 目标检测技术根基，融合图像、文字等多模态信息，实现对动态视频中目标物体、行为和场景的深度解析，精准识别三维空间中物体的运动轨迹、交互关系，让模型能力从“被动响应指令”升级为“主动理解需求”，为上层应用的“决策”环节提供核心支撑，大幅提升场景智能化体验。

在最新的拉斯维加斯 CES 2026 展会上，视启未来携手九安智能（JUANCLOUD）发布了面向智能摄像头的新一代实时视频理解端侧 AI，为传统摄像头注入“可理解、可表达、可联动”的智能能力。

视启未来在 CES 2026 展会进行产品展示

DINO-XGrasp 万物抓取模型则深度复用 2D 与 3D 感知的技术内核，让模型能力从“环境感知”迈向“主动交互”，聚焦上层应用的“执行”环节。DINO-XGrasp 万物抓取模型凭借万物检测的泛化优势，驱动机械臂精准识别三维空间中的各类物体，实现自主抓取、长程操作与精准定位，可应用于工业自动化、智能巡检等场景，完成对复杂空间的自主交互任务。

三大技术落地载体在服务真实场景需求的同时，可获取海量高价值空间数据，这些数据不仅能反向优化原有模型的精度与泛化能力，还能为团队攻克空间智能下一阶段的关键技术提供数据支撑与方向指引，形成技术迭代的正向循环，持续扩大模型竞争力和数据护城河。

依托 IDEA 研究院底层技术积淀与全链条孵化赋能，视启未来锚定“视觉原生”为核心理念，深耕空间智能领域，持续释放创新活力，为工业自动化、自动驾驶、具身智能等多领域智能化升级注入技术动能。

了解更多：3D 感知里程碑跃迁：视启未来加速抢滩空间智能（点击查阅）

连发三款SOTA模型，IDEA孵化企业视启未来领跑3D感知赛道

返回新闻动态

日期：2026-03-03

推出 MaaS、多模态视频理解模型以及 DINO-XGrasp 万物抓取模型三大技术落地载体

三款 SOTA 模型
领跑 3D 赛道

SegDINO3D 聚焦 3D 实例分割的核心瓶颈，创新性地利用 2D 先验知识自动生成 3D 标注，无需依赖海量人工标注的 3D 数据，同时解决传统方法内存消耗过大的问题，为 3D 开放世界实现智能检测提供关键技术底座。
OVSeg3R 在 SegDINO3D 基础上实现迭代升级，进一步破解 3D 实例分割中闭集局限、长尾类与头部类性能失衡及标注需人工后处理的难题，大幅降低训练成本的同时，实现开集 3D 实例分割的性能飞跃，显著缩小长尾类与头部类的性能差距。
SceneMaker 3D 场景生成框架由视启未来联合港科大初创团队光影焕像共同推出，聚焦 3D 场景理解与重建的薄弱环节，通过解耦去遮挡模块、优化位姿估计机制，依托自建大规模开放世界 3D 场景数据集，打破传统 3D 场景生成局限于室内场景和有限物体类别的困境，实现任意开放世界图像的精准 3D 场景重建，有效解决遮挡物体还原不完整、位姿估计偏差等问题，为计算机感知和建模真实世界（Real-to-Sim）领域带来重大突破。