Arxiv Insights - Curated Research Intelligence

核心发现

将多智能体失败归因为 Semantic Intent Divergence，并把冲突分成矛盾意图、资源争用、因果违背三类；推理链是：局部看似正确的动作在全局流程与政策约束下仍可能互相抵触。
提出 SCF 中间件，把流程上下文、意图图、冲突检测、保守仲裁、漂移监控和治理映射串成执行前拦截链路；其核心机制不是提升模型能力，而是把错误在提交前阻断。
在 4 个自建企业流程场景、3 种框架配置、共 600 次模拟运行中，SCF 将流程完成率提升到 100%，而 Ungoverned、Schema-Only、Judge-Agent 仅为 0.2%、0.8%、25.1%；但这一结果建立在模拟环境与保守阻断口径之上。
PCL 的独立价值没有被结果强力证明，因为 SCF-NoPCL 与完整 SCF 的完成率同为 100%，精度也几乎相同；实验更支持“执行前保守拦截有用”，而非“流程语义层本身带来显著增益”。

实验规模

基于 4 个自建企业流程模型（金融交易、客服工单、供应链履约、软件开发），在 AutoGen v0.4、CrewAI v0.76、LangGraph v0.2 三种模拟配置上各运行 50 次，共 600 次实验；每个场景包含 4-6 个代理，采用 80% 正常分布和 20% 对抗分布，并与 Ungoverned、Schema-Only、Judge-Agent、SCF-NoPCL 四类基线对比。实现为约 4200 行 Python 中间件，未使用真实线上 LLM 交互，评估指标包括冲突检测精度/召回、工作流完成率和漂移事件数。

局限性

实验完全基于自建模拟流程和手工构造冲突模式，没有在真实 LLM agent、真实企业日志或外部公开数据上验证，外推性有限。基线设计偏弱且对成功的定义有利于“拦截后重试”策略，因此 100% 完成率不能等价于真实生产吞吐或用户体验提升。PCL 的独立贡献也不清晰，完整 SCF 与 SCF-NoPCL 几乎同效，而 27.9% 的精度意味着误报很多，可能在高频场景造成明显性能损耗。