Arxiv Insights - Curated Research Intelligence

核心发现

将天文成像质量诊断定义为跨准备、拍摄、后处理的耦合溯因问题，认为传统VLM只做质量打分不足以回答“哪里错了、为什么错”。
提出 AstroSight 多智能体框架，让不同 agent 按成像流程分工，并可调用外部工具补充隐藏信息。
提出 ASK-RAG，用关键词词表驱动知识图谱的分割与聚合，为每个 agent 构建专属子知识图，减少无关噪声和幻觉。
提出 RwB/Chain-of-Backtracking，通过协调器回溯前序 agent、比较置信度与边权，构建 Collaborative Reasoning Tree，以支持多原因错误定位。
在来自 AstroBin 和 iStarShooter 的真实天文图像上，系统声称在 galaxies、nebulas、star clusters 三类任务的 rationality/accuracy/diversity 上整体优于 GPT-4o、Claude Sonnet 4 等基线，消融也显示 ASK-RAG 和 RwB 都带来明显提升。

实验规模

在 AstroBin 与 iStarShooter 收集的真实天文图像上做实验，按 galaxies、nebulas、star clusters 三类评测；AstroSight 中部署 12 个与成像流程对应的 agent，agent 使用 Qwen2.5-VL 7B，协调器使用 Qwen3-VL 30B。对比的整体 VLM 基线包括 GPT-4o、Claude Sonnet 4、Qwen3-VL、InternVL3、Deepseek-VL2；RAG 基线包括 GraphRAG、RAG-Fusion、LightRAG；推理基线包括 MAD、CMD、ReConcile。实验在 76 核 Intel Xeon 与 4 张 NVIDIA A100 80GB 上运行；论文未披露数据集总样本数。

局限性

最大问题是证据链不够硬：论文没有公开数据集总规模、标注细则和完整任务设置，外部读者很难独立复现或判断提升幅度是否稳健。主评价指标 rationality、accuracy、diversity 主要由 GPT-4o 充当裁判，带有较强主观性，难以证明真正的天文诊断正确率。方法本身也高度依赖关键词词表、图谱阈值和多轮协商流程，工程复杂但泛化边界未被充分验证。