智能体系统★ 评分 4.6

AstroVLM: Expert Multi-agent Collaborative Reasoning for Astronomical Imaging Quality Diagnosis

Yaohui Han, Tianshuo Wang, Zixi Zhao, Zhengchun Zhu, Shuo Ren, Yiru Wang, Rongliang Fu, Tinghuan Chen, Tsung-Yi Ho
2026年4月26日
关键词
天文图像质量诊断多智能体协同推理检索增强生成知识图谱分割反向回溯推理

核心发现

  1. 将天文成像质量诊断定义为跨准备、拍摄、后处理的耦合溯因问题,认为传统VLM只做质量打分不足以回答“哪里错了、为什么错”。
  2. 提出 AstroSight 多智能体框架,让不同 agent 按成像流程分工,并可调用外部工具补充隐藏信息。
  3. 提出 ASK-RAG,用关键词词表驱动知识图谱的分割与聚合,为每个 agent 构建专属子知识图,减少无关噪声和幻觉。
  4. 提出 RwB/Chain-of-Backtracking,通过协调器回溯前序 agent、比较置信度与边权,构建 Collaborative Reasoning Tree,以支持多原因错误定位。
  5. 在来自 AstroBin 和 iStarShooter 的真实天文图像上,系统声称在 galaxies、nebulas、star clusters 三类任务的 rationality/accuracy/diversity 上整体优于 GPT-4o、Claude Sonnet 4 等基线,消融也显示 ASK-RAG 和 RwB 都带来明显提升。

实验规模

在 AstroBin 与 iStarShooter 收集的真实天文图像上做实验,按 galaxies、nebulas、star clusters 三类评测;AstroSight 中部署 12 个与成像流程对应的 agent,agent 使用 Qwen2.5-VL 7B,协调器使用 Qwen3-VL 30B。对比的整体 VLM 基线包括 GPT-4o、Claude Sonnet 4、Qwen3-VL、InternVL3、Deepseek-VL2;RAG 基线包括 GraphRAG、RAG-Fusion、LightRAG;推理基线包括 MAD、CMD、ReConcile。实验在 76 核 Intel Xeon 与 4 张 NVIDIA A100 80GB 上运行;论文未披露数据集总样本数。

局限性

最大问题是证据链不够硬:论文没有公开数据集总规模、标注细则和完整任务设置,外部读者很难独立复现或判断提升幅度是否稳健。主评价指标 rationality、accuracy、diversity 主要由 GPT-4o 充当裁判,带有较强主观性,难以证明真正的天文诊断正确率。方法本身也高度依赖关键词词表、图谱阈值和多轮协商流程,工程复杂但泛化边界未被充分验证。

Paper ID: 2604.16024