智能体系统★ 评分 3.7

Semantic Consensus: Process-Aware Conflict Detection and Resolution for Enterprise Multi-Agent LLM Systems

Vivek Acharya
2026年4月26日
关键词
语义意图偏离多智能体协同流程上下文建模冲突检测企业治理中间件

核心发现

  1. 将多智能体失败归因为 Semantic Intent Divergence,并把冲突分成矛盾意图、资源争用、因果违背三类;推理链是:局部看似正确的动作在全局流程与政策约束下仍可能互相抵触。
  2. 提出 SCF 中间件,把流程上下文、意图图、冲突检测、保守仲裁、漂移监控和治理映射串成执行前拦截链路;其核心机制不是提升模型能力,而是把错误在提交前阻断。
  3. 在 4 个自建企业流程场景、3 种框架配置、共 600 次模拟运行中,SCF 将流程完成率提升到 100%,而 Ungoverned、Schema-Only、Judge-Agent 仅为 0.2%、0.8%、25.1%;但这一结果建立在模拟环境与保守阻断口径之上。
  4. PCL 的独立价值没有被结果强力证明,因为 SCF-NoPCL 与完整 SCF 的完成率同为 100%,精度也几乎相同;实验更支持“执行前保守拦截有用”,而非“流程语义层本身带来显著增益”。

实验规模

基于 4 个自建企业流程模型(金融交易、客服工单、供应链履约、软件开发),在 AutoGen v0.4、CrewAI v0.76、LangGraph v0.2 三种模拟配置上各运行 50 次,共 600 次实验;每个场景包含 4-6 个代理,采用 80% 正常分布和 20% 对抗分布,并与 Ungoverned、Schema-Only、Judge-Agent、SCF-NoPCL 四类基线对比。实现为约 4200 行 Python 中间件,未使用真实线上 LLM 交互,评估指标包括冲突检测精度/召回、工作流完成率和漂移事件数。

局限性

实验完全基于自建模拟流程和手工构造冲突模式,没有在真实 LLM agent、真实企业日志或外部公开数据上验证,外推性有限。基线设计偏弱且对成功的定义有利于“拦截后重试”策略,因此 100% 完成率不能等价于真实生产吞吐或用户体验提升。PCL 的独立贡献也不清晰,完整 SCF 与 SCF-NoPCL 几乎同效,而 27.9% 的精度意味着误报很多,可能在高频场景造成明显性能损耗。

Paper ID: 2604.16339