Arxiv Insights - Curated Research Intelligence

核心发现

仅依赖上下文化触发表示会把表面上下文差异误当成类型差异，导致同类事件分散、异类事件混淆，实例级相似度不足以支撑本体扩展。
先用LLM生成概念名和概念描述，再与原句和触发词联合编码，可显著增强聚类稳定性；在ACE/ERE/MAVEN上，BCubed-F1分别达到83.25/73.33/51.72，较HALTON最高提升12.37个百分点。
将层级插入改为有向父子链接，并用自底向上的概念组合表示内部节点，可比单纯相似度匹配更可靠地定位父节点；Taxo_F1在三数据集上均优于基线，ACE金簇设置下达到51.16。
用高频概念和预测路径约束LLM进行类型命名，比单一代表触发词或单一概念更稳健；ROUGE-L和BERTScore在ACE、ERE、MAVEN上均超过TABS、T5_Template、Trigger_Sel、HALTON和Top1_Concept。

实验规模

在ACE、ERE、MAVEN三套事件数据集上评估事件本体扩展。按HALTON的设置，ACE和ERE各取10个高频类型作为已知类，MAVEN取20个已知类，其余作为未知类，对应未知类型比例约69.7%、73.7%、66.7%。模型使用BERT-base-uncased作为编码器，Qwen3-32B用于概念化与类型命名；评测覆盖事件聚类（ARI、NMI、Accuracy、BCubed-F1）、层级扩展（Taxo_P、Taxo_R、Taxo_F1，含预测簇与金簇两种设置）和类型命名（ROUGE-L、BERTScore）。对比基线包括SS-VQ-VAE、ETYPECLUS、TABS、HALTON，以及Type_Similarity、LLMs_Prompt、T5_Template、Trigger_Sel、Top1_Concept等；作者说明结果为单次运行。

局限性

方法依赖Qwen3-32B完成概念化和命名，额外推理成本高，性能也会受提示词质量和生成稳定性影响。实验仍建立在已给定事件触发词的前提下，且采用ACE、ERE、MAVEN这类相对固定的基准划分，离真正端到端、开放域、持续演化的本体扩展还有距离。另一个问题是只报告单次结果，缺少多随机种子统计和更强近年基线的系统比较，因此中等幅度提升的置信度有限。