智能体系统★ 评分 5.8

Aether: Network Validation Using Agentic AI and Digital Twin

Jordan Auge, Sam Betts, Giovanna Carofiglio, Giulio Grassi, Martin Gysi, John Kenneth d'Souza
2026年4月26日
关键词
网络变更验证代理式AI网络数字孪生知识图谱Batfish

核心发现

  1. Aether 通过专用 Agent 分解网络变更验证流程,并在统一 NDT 上协同工作,把自然语言意图转成可执行的验证动作,主要解决传统流程碎片化和门槛高的问题。
  2. NDM 知识图谱统一 OpenConfig、配置、ACL、路由和性能数据,NDT 再挂接 Batfish、NS-3、RouteNet、Diffy,使模型验证、仿真和差异检测可以按需组合。
  3. 在 8 个合成场景与 2 个真实 ISP 事故复现中,系统对坏变更的检测率达到 94% 和 100%,但总体精度仅 64% 和 73%,说明它更像高召回的安全网,而非低误报的自动裁决器。

实验规模

使用 5 个基于 GPT-4o 的 ReAct/A2A Agent,NDT 集成 Batfish、NS-3、RouteNet、Diffy 与 ArangoDB 知识图谱;合成评测覆盖 8 个网络变更场景,每个场景包含 1 个基准输入、3 个自然语言改写、正确/错误两类候选变更,并进行 10 次独立重复;NDM Query 单独评测 50 个知识图谱问题,配 3 种改写与 10 次重复;真实评测在 25 台路由器的 ISP 实验室复制网中复现 2 个历史事故,网络规模为 277 个 IPv4/IPv6 地址、263 个 VRF、613 个实例、76 个 ACL、274 条规则和超过 30,000 行配置。

局限性

缺少与强基线的系统消融,无法清楚拆分 Agent、NDT、Batfish 以及提示词工程各自带来的收益,也没有统一对比人工 CAB、传统 CI/CD 或单工具流程。评测集规模偏小且高度定制,8 个合成场景和 2 个 ISP 案例不足以覆盖真实网络中的厂商异质性、拓扑多样性与故障分布。部分指标依赖 LLM-as-a-Judge 和专家构造的 ground truth,客观性、可复现性与跨团队一致性仍有疑问。

Paper ID: 2604.18233