智能体系统★ 评分 4.7

RAVEN: Retrieval-Augmented Vulnerability Exploration Network for Memory Corruption Analysis in User Code and Binary Programs

Parteek Jamwal, Minghao Shao, Boyuan Chen, Achyuta Muthuvelan, Asini Subanya, Boubacar Ballo, Kashish Satija, Mariam Shafey, Mohamed Mahmoud, Moncif Dahaji Bouffi, Pasindu Wickramasinghe, Siyona Goel, Yaakulya Sabbani, Hakim Hacid, Mthandazo Ndhlovu, Eleanna Kafeza, Sanjay Rawat, Muhammad Shafique
2026年4月26日
关键词
漏洞报告生成检索增强生成多智能体系统内存破坏分析LLM评估

核心发现

  1. 将漏洞分析拆成 Explorer、Analyst、Reporter 三个阶段,再接入 Project Zero 报告与 CWE 知识库检索,目标是把代码证据、CWE 对齐和修复建议串成完整 RCA 报告。
  2. 引入 Contextual Chunking、HyPE、混合检索、Cross-Encoder 和 LLM reranker 后,性能最好的一组配置并不稳定,说明提升主要来自检索增强的工程拼装,而不是新的核心算法突破。
  3. 在 105 个 NIST-SARD 内存破坏样本、覆盖 15 类 CWE 的实验中,整体分数约 54.21%,表明系统能生成结构化报告,但事实对齐与修复质量仍然有限,且很多修复只是绕开问题而非修正根因。
  4. 评估几乎完全依赖双 LLM Judge 的自动打分,缺少人工安全专家复核与强端到端基线对比,因此结论更像一个可用性原型展示,而不是对真实漏洞分析能力的强证明。

实验规模

构建了由 70 篇 Google Project Zero 0-day RCA 报告和 1,321 个从 2,735 页 CWE MITRE PDF 中提取的章节组成的 RAG 知识库;在 NIST-SARD 中选取 105 个内存破坏类漏洞样本,覆盖 15 种 CWE。对 4 个 Falcon 模型(H1R-7B、H1-7B-Instruct、H1-34B-Instruct、Falcon3-10B-Instruct)在 10 种 RAG 组合上做了 40 组实验;检索参数为 top_k=10、num_candidates=2,温度 0.6、top-p 0.95,重排器使用 SecureBERT 2.0 与 Grok 4.1-Fast,评价由 Claude 4.5 Sonnet 和 Gemini 3.1 Pro 组成的双 Judge 完成。

局限性

最大问题是评估严重依赖 LLM-as-a-Judge,缺少人工安全专家复核,也缺少与专门的漏洞定位或修复基线进行端到端比较,因此分数的可信度有限。实验只覆盖 105 个内存破坏样本,且知识库主要来自 Project Zero 与 CWE 资料,面对真实多文件项目、非内存漏洞或未见过的攻击链时,泛化能力并未被证明。作者自己也承认不少修复只是禁用问题行为而非真正修正根因,这说明所谓 remediation 仍偏表层。

Paper ID: 2604.17948