智能体系统★ 评分 5.8
Aether: Network Validation Using Agentic AI and Digital Twin
Jordan Auge, Sam Betts, Giovanna Carofiglio, Giulio Grassi, Martin Gysi, John Kenneth d'Souza
2026年4月26日
关键词
网络变更验证代理式AI网络数字孪生知识图谱Batfish
核心发现
- Aether 通过专用 Agent 分解网络变更验证流程,并在统一 NDT 上协同工作,把自然语言意图转成可执行的验证动作,主要解决传统流程碎片化和门槛高的问题。
- NDM 知识图谱统一 OpenConfig、配置、ACL、路由和性能数据,NDT 再挂接 Batfish、NS-3、RouteNet、Diffy,使模型验证、仿真和差异检测可以按需组合。
- 在 8 个合成场景与 2 个真实 ISP 事故复现中,系统对坏变更的检测率达到 94% 和 100%,但总体精度仅 64% 和 73%,说明它更像高召回的安全网,而非低误报的自动裁决器。
实验规模
使用 5 个基于 GPT-4o 的 ReAct/A2A Agent,NDT 集成 Batfish、NS-3、RouteNet、Diffy 与 ArangoDB 知识图谱;合成评测覆盖 8 个网络变更场景,每个场景包含 1 个基准输入、3 个自然语言改写、正确/错误两类候选变更,并进行 10 次独立重复;NDM Query 单独评测 50 个知识图谱问题,配 3 种改写与 10 次重复;真实评测在 25 台路由器的 ISP 实验室复制网中复现 2 个历史事故,网络规模为 277 个 IPv4/IPv6 地址、263 个 VRF、613 个实例、76 个 ACL、274 条规则和超过 30,000 行配置。
局限性
缺少与强基线的系统消融,无法清楚拆分 Agent、NDT、Batfish 以及提示词工程各自带来的收益,也没有统一对比人工 CAB、传统 CI/CD 或单工具流程。评测集规模偏小且高度定制,8 个合成场景和 2 个 ISP 案例不足以覆盖真实网络中的厂商异质性、拓扑多样性与故障分布。部分指标依赖 LLM-as-a-Judge 和专家构造的 ground truth,客观性、可复现性与跨团队一致性仍有疑问。