Arxiv Insights - Curated Research Intelligence

核心发现

Aether 通过专用 Agent 分解网络变更验证流程，并在统一 NDT 上协同工作，把自然语言意图转成可执行的验证动作，主要解决传统流程碎片化和门槛高的问题。
NDM 知识图谱统一 OpenConfig、配置、ACL、路由和性能数据，NDT 再挂接 Batfish、NS-3、RouteNet、Diffy，使模型验证、仿真和差异检测可以按需组合。
在 8 个合成场景与 2 个真实 ISP 事故复现中，系统对坏变更的检测率达到 94% 和 100%，但总体精度仅 64% 和 73%，说明它更像高召回的安全网，而非低误报的自动裁决器。

实验规模

使用 5 个基于 GPT-4o 的 ReAct/A2A Agent，NDT 集成 Batfish、NS-3、RouteNet、Diffy 与 ArangoDB 知识图谱；合成评测覆盖 8 个网络变更场景，每个场景包含 1 个基准输入、3 个自然语言改写、正确/错误两类候选变更，并进行 10 次独立重复；NDM Query 单独评测 50 个知识图谱问题，配 3 种改写与 10 次重复；真实评测在 25 台路由器的 ISP 实验室复制网中复现 2 个历史事故，网络规模为 277 个 IPv4/IPv6 地址、263 个 VRF、613 个实例、76 个 ACL、274 条规则和超过 30,000 行配置。

局限性

缺少与强基线的系统消融，无法清楚拆分 Agent、NDT、Batfish 以及提示词工程各自带来的收益，也没有统一对比人工 CAB、传统 CI/CD 或单工具流程。评测集规模偏小且高度定制，8 个合成场景和 2 个 ISP 案例不足以覆盖真实网络中的厂商异质性、拓扑多样性与故障分布。部分指标依赖 LLM-as-a-Judge 和专家构造的 ground truth，客观性、可复现性与跨团队一致性仍有疑问。