机器人★ 评分 5.9

Continual Hand-Eye Calibration for Open-world Robotic Manipulation

Fazeng Li, Gan Sun, Chenxi Liu, Yao He, Wei Cong, Yang Cong
2026年4月26日
关键词
连续学习手眼标定位姿空间回放结构化蒸馏开放世界机器人操作

核心发现

  1. 连续手眼标定的遗忘不是单一问题,而是同时存在场景级混淆和位姿精度退化;仅做普通 fine-tune 或随机 replay,都会在新场景适应后明显丢失旧场景能力。
  2. SARS 用位姿空间中的 Poisson disk 采样替代冗余帧回放,优先保留几何上分散、信息量更高的样本,因此缓解了旧场景覆盖不足导致的遗忘。
  3. SPDD 把蒸馏拆成 cluster activation 的拓扑先验和 offset residual 的度量精度两部分,避免只对最终输出做单点约束而引发的细粒度位姿漂移。
  4. 在 i7Scenes、i12Scenes 和自建 Sim 数据集上,方法把最终准确率提升到 74.9%、91.8%、98.4%,并把 TFR 降到 6.65、8.1、1.6,说明“几何覆盖 + 结构化蒸馏”确实比普通回放更稳。

实验规模

在两个公开室内连续定位基准上验证:i7Scenes(7 个场景,源自 7Scenes)与 i12Scenes(12 个场景,源自 12Scenes),并在自建 Isaac Sim 三场景数据集(Bedroom、Kitchen、Living,约 1 万帧 RGB-D)上测试手眼标定连续学习;按场景顺序顺序训练,每个场景在 i7/i12 上迭代 15K 步、Sim 上迭代 5K 步,使用 6 张 GPU 和 AdamW(lr=0.005),回放缓冲区设为每场景 10% 样本,SARS 参数 r=0.5、λ=1.0,SPDD 参数 α=β=γ=1.0、τ=2.0、M_a=50;统一以 GLACE 为骨干,并与 Joint、Fine-tune、iCaRL、Buff-CS、GEC、GDR 对比。

局限性

实验主要集中在室内场景和仿真环境,尚缺少真实机器人长期部署、复杂光照/遮挡和更大尺度开放世界场景的验证,因此外推性有限。方法收益很大程度依赖手工设定的位姿距离、回放半径和活跃中心数,且消融主要围绕 iCaRL+GLACE 展开,尚未充分证明其对不同骨干、不同任务序列和不同记忆预算都同样稳健。

Paper ID: 2604.15814