自然语言处理★ 评分 5.8

Event Ontology Expansion via LLM-Based Conceptualization

Weicheng Ren, Zixuan Li, Long Bai, Xiaolong Jin, Jiafeng Guo, Xueqi Cheng
2026年6月25日
关键词
事件本体扩展LLM概念化事件聚类层级扩展类型命名

核心发现

  1. 仅依赖上下文化触发表示会把表面上下文差异误当成类型差异,导致同类事件分散、异类事件混淆,实例级相似度不足以支撑本体扩展。
  2. 先用LLM生成概念名和概念描述,再与原句和触发词联合编码,可显著增强聚类稳定性;在ACE/ERE/MAVEN上,BCubed-F1分别达到83.25/73.33/51.72,较HALTON最高提升12.37个百分点。
  3. 将层级插入改为有向父子链接,并用自底向上的概念组合表示内部节点,可比单纯相似度匹配更可靠地定位父节点;Taxo_F1在三数据集上均优于基线,ACE金簇设置下达到51.16。
  4. 用高频概念和预测路径约束LLM进行类型命名,比单一代表触发词或单一概念更稳健;ROUGE-L和BERTScore在ACE、ERE、MAVEN上均超过TABS、T5_Template、Trigger_Sel、HALTON和Top1_Concept。

实验规模

在ACE、ERE、MAVEN三套事件数据集上评估事件本体扩展。按HALTON的设置,ACE和ERE各取10个高频类型作为已知类,MAVEN取20个已知类,其余作为未知类,对应未知类型比例约69.7%、73.7%、66.7%。模型使用BERT-base-uncased作为编码器,Qwen3-32B用于概念化与类型命名;评测覆盖事件聚类(ARI、NMI、Accuracy、BCubed-F1)、层级扩展(Taxo_P、Taxo_R、Taxo_F1,含预测簇与金簇两种设置)和类型命名(ROUGE-L、BERTScore)。对比基线包括SS-VQ-VAE、ETYPECLUS、TABS、HALTON,以及Type_Similarity、LLMs_Prompt、T5_Template、Trigger_Sel、Top1_Concept等;作者说明结果为单次运行。

局限性

方法依赖Qwen3-32B完成概念化和命名,额外推理成本高,性能也会受提示词质量和生成稳定性影响。实验仍建立在已给定事件触发词的前提下,且采用ACE、ERE、MAVEN这类相对固定的基准划分,离真正端到端、开放域、持续演化的本体扩展还有距离。另一个问题是只报告单次结果,缺少多随机种子统计和更强近年基线的系统比较,因此中等幅度提升的置信度有限。

Paper ID: 2606.21048