Arxiv Insights - Curated Research Intelligence

核心发现

将漏洞分析拆成 Explorer、Analyst、Reporter 三个阶段，再接入 Project Zero 报告与 CWE 知识库检索，目标是把代码证据、CWE 对齐和修复建议串成完整 RCA 报告。
引入 Contextual Chunking、HyPE、混合检索、Cross-Encoder 和 LLM reranker 后，性能最好的一组配置并不稳定，说明提升主要来自检索增强的工程拼装，而不是新的核心算法突破。
在 105 个 NIST-SARD 内存破坏样本、覆盖 15 类 CWE 的实验中，整体分数约 54.21%，表明系统能生成结构化报告，但事实对齐与修复质量仍然有限，且很多修复只是绕开问题而非修正根因。
评估几乎完全依赖双 LLM Judge 的自动打分，缺少人工安全专家复核与强端到端基线对比，因此结论更像一个可用性原型展示，而不是对真实漏洞分析能力的强证明。

实验规模

构建了由 70 篇 Google Project Zero 0-day RCA 报告和 1,321 个从 2,735 页 CWE MITRE PDF 中提取的章节组成的 RAG 知识库；在 NIST-SARD 中选取 105 个内存破坏类漏洞样本，覆盖 15 种 CWE。对 4 个 Falcon 模型（H1R-7B、H1-7B-Instruct、H1-34B-Instruct、Falcon3-10B-Instruct）在 10 种 RAG 组合上做了 40 组实验；检索参数为 top_k=10、num_candidates=2，温度 0.6、top-p 0.95，重排器使用 SecureBERT 2.0 与 Grok 4.1-Fast，评价由 Claude 4.5 Sonnet 和 Gemini 3.1 Pro 组成的双 Judge 完成。

局限性

最大问题是评估严重依赖 LLM-as-a-Judge，缺少人工安全专家复核，也缺少与专门的漏洞定位或修复基线进行端到端比较，因此分数的可信度有限。实验只覆盖 105 个内存破坏样本，且知识库主要来自 Project Zero 与 CWE 资料，面对真实多文件项目、非内存漏洞或未见过的攻击链时，泛化能力并未被证明。作者自己也承认不少修复只是禁用问题行为而非真正修正根因，这说明所谓 remediation 仍偏表层。