IDEA 研究院孵化企业视启未来连续发力刷新 3D 感知模型新纪录(SOTA),先后发布 SegDINO3D、OVSeg3R 和 SceneMaker 三款 SOTA 模型,并推出 MaaS(模型即服务)、多模态视频理解模型以及 DINO-XGrasp 万物抓取模型三大技术落地载体,将前沿研究成果系统性转化为可交付、可规模化的产品能力。
三款 SOTA 模型
领跑 3D 赛道
依托 DINO-X 通用视觉大模型的底层技术积淀,视启未来团队针对 3D 感知领域长期存在的“数据标注成本高、场景适配局限、场景理解与重建能力不足”三大核心痛点,先后推出 SegDINO3D、OVSeg3R 和 SceneMaker 三款 SOTA 模型,形成从 3D 检测到 3D 场景重建的全链路技术突破。
三款模型连续刷新 3D 感知模型全球基准测试纪录,完善了 3D 感知全链路技术体系,为依赖精准 3D 环境感知和物体交互识别的工业自动化、自动驾驶、具身智能等多个领域的场景化应用提供了核心技术支撑。
SegDINO3D 刷新 ScanNet200,实现闭集模型性能飞跃
OVSeg3R 打破 3D 感知瓶颈,实现 3D 开集检测
SceneMaker 生成开放世界场景
论文地址
SegDINO3D
OVSeg3R
SceneMaker
技术产品化落地
打造数据增长飞轮
从 2D 万物检测到 3D 感知的技术发展路径中,团队深入洞察产业实际需求,提取出三个核心的技术关键点进行产品化,依次推出 MaaS(模型即服务)、多模态视频理解模型以及 DINO-XGrasp 万物抓取模型三大技术落地载体,解决企业轻量化模型复用、提升场景智能体验、工业自动化等智能化需求,并构建“技术研发-场景落地-数据反哺-技术升级”的数据增长飞轮,以场景数据驱动模型迭代、以迭代技术赋能场景拓展,推动视觉模型向下一级关键技术节点进化,加速迈向空间智能。
MaaS 服务深度整合 DINO-X 系列视觉大模型核心能力,以 API 接口与基于 2D 检测模型构建的原生应用为输出形态,实现技术能力的轻量化输出。通过将万物检测的底层能力嵌入各类场景化应用中,团队在高效输出技术价值的同时,持续捕获不同场景下的真实视觉数据,反哺模型算法优化,并为未来场景积累数据储备。
多模态视频理解模型则承接 2D 目标检测技术根基,融合图像、文字等多模态信息,实现对动态视频中目标物体、行为和场景的深度解析,精准识别三维空间中物体的运动轨迹、交互关系,让模型能力从“被动响应指令”升级为“主动理解需求”,为上层应用的“决策”环节提供核心支撑,大幅提升场景智能化体验。
在最新的拉斯维加斯 CES 2026 展会上,视启未来携手九安智能(JUANCLOUD)发布了面向智能摄像头的新一代实时视频理解端侧 AI,为传统摄像头注入“可理解、可表达、可联动”的智能能力。

视启未来在 CES 2026 展会进行产品展示
DINO-XGrasp 万物抓取模型则深度复用 2D 与 3D 感知的技术内核,让模型能力从“环境感知”迈向“主动交互”,聚焦上层应用的“执行”环节。DINO-XGrasp 万物抓取模型凭借万物检测的泛化优势,驱动机械臂精准识别三维空间中的各类物体,实现自主抓取、长程操作与精准定位,可应用于工业自动化、智能巡检等场景,完成对复杂空间的自主交互任务。
三大技术落地载体在服务真实场景需求的同时,可获取海量高价值空间数据,这些数据不仅能反向优化原有模型的精度与泛化能力,还能为团队攻克空间智能下一阶段的关键技术提供数据支撑与方向指引,形成技术迭代的正向循环,持续扩大模型竞争力和数据护城河。
依托 IDEA 研究院底层技术积淀与全链条孵化赋能,视启未来锚定“视觉原生”为核心理念,深耕空间智能领域,持续释放创新活力,为工业自动化、自动驾驶、具身智能等多领域智能化升级注入技术动能。
了解更多:3D 感知里程碑跃迁:视启未来加速抢滩空间智能(点击查阅)
IDEA 研究院孵化企业视启未来连续发力刷新 3D 感知模型新纪录(SOTA),先后发布 SegDINO3D、OVSeg3R 和 SceneMaker 三款 SOTA 模型,并推出 MaaS(模型即服务)、多模态视频理解模型以及 DINO-XGrasp 万物抓取模型三大技术落地载体,将前沿研究成果系统性转化为可交付、可规模化的产品能力。
三款 SOTA 模型
领跑 3D 赛道
依托 DINO-X 通用视觉大模型的底层技术积淀,视启未来团队针对 3D 感知领域长期存在的“数据标注成本高、场景适配局限、场景理解与重建能力不足”三大核心痛点,先后推出 SegDINO3D、OVSeg3R 和 SceneMaker 三款 SOTA 模型,形成从 3D 检测到 3D 场景重建的全链路技术突破。
三款模型连续刷新 3D 感知模型全球基准测试纪录,完善了 3D 感知全链路技术体系,为依赖精准 3D 环境感知和物体交互识别的工业自动化、自动驾驶、具身智能等多个领域的场景化应用提供了核心技术支撑。
SegDINO3D 刷新 ScanNet200,实现闭集模型性能飞跃
OVSeg3R 打破 3D 感知瓶颈,实现 3D 开集检测
SceneMaker 生成开放世界场景
论文地址
SegDINO3D
OVSeg3R
SceneMaker
技术产品化落地
打造数据增长飞轮
从 2D 万物检测到 3D 感知的技术发展路径中,团队深入洞察产业实际需求,提取出三个核心的技术关键点进行产品化,依次推出 MaaS(模型即服务)、多模态视频理解模型以及 DINO-XGrasp 万物抓取模型三大技术落地载体,解决企业轻量化模型复用、提升场景智能体验、工业自动化等智能化需求,并构建“技术研发-场景落地-数据反哺-技术升级”的数据增长飞轮,以场景数据驱动模型迭代、以迭代技术赋能场景拓展,推动视觉模型向下一级关键技术节点进化,加速迈向空间智能。
MaaS 服务深度整合 DINO-X 系列视觉大模型核心能力,以 API 接口与基于 2D 检测模型构建的原生应用为输出形态,实现技术能力的轻量化输出。通过将万物检测的底层能力嵌入各类场景化应用中,团队在高效输出技术价值的同时,持续捕获不同场景下的真实视觉数据,反哺模型算法优化,并为未来场景积累数据储备。
多模态视频理解模型则承接 2D 目标检测技术根基,融合图像、文字等多模态信息,实现对动态视频中目标物体、行为和场景的深度解析,精准识别三维空间中物体的运动轨迹、交互关系,让模型能力从“被动响应指令”升级为“主动理解需求”,为上层应用的“决策”环节提供核心支撑,大幅提升场景智能化体验。
在最新的拉斯维加斯 CES 2026 展会上,视启未来携手九安智能(JUANCLOUD)发布了面向智能摄像头的新一代实时视频理解端侧 AI,为传统摄像头注入“可理解、可表达、可联动”的智能能力。

视启未来在 CES 2026 展会进行产品展示
DINO-XGrasp 万物抓取模型则深度复用 2D 与 3D 感知的技术内核,让模型能力从“环境感知”迈向“主动交互”,聚焦上层应用的“执行”环节。DINO-XGrasp 万物抓取模型凭借万物检测的泛化优势,驱动机械臂精准识别三维空间中的各类物体,实现自主抓取、长程操作与精准定位,可应用于工业自动化、智能巡检等场景,完成对复杂空间的自主交互任务。
三大技术落地载体在服务真实场景需求的同时,可获取海量高价值空间数据,这些数据不仅能反向优化原有模型的精度与泛化能力,还能为团队攻克空间智能下一阶段的关键技术提供数据支撑与方向指引,形成技术迭代的正向循环,持续扩大模型竞争力和数据护城河。
依托 IDEA 研究院底层技术积淀与全链条孵化赋能,视启未来锚定“视觉原生”为核心理念,深耕空间智能领域,持续释放创新活力,为工业自动化、自动驾驶、具身智能等多领域智能化升级注入技术动能。
了解更多:3D 感知里程碑跃迁:视启未来加速抢滩空间智能(点击查阅)
