自然语言处理★ 评分 6.8
nchellwig at SemEval-2026 Task 3: Self-Consistent Structured Generation (SCSG) for Dimensional Aspect-Based Sentiment Analysis using Large Language Models
Nils Constantin Hellwig, Jakob Fehle, Udo Kruschwitz, Christian Wolff
2026年3月3日
关键词
自洽生成维度情感分析大型语言模型PagedAttentionSemEval
核心发现
- SCSG通过LoRA微调的LLM进行多轮(k次)生成,并采用多数投票($\lceil k/2\rceil+1$)机制聚合结果,以提高维度方面情感分析的预测可靠性。
- 自洽机制在DimASTE和DimASQP任务上均实现了统计显著的cF1性能提升,DimASTE平均cF1从55.52增至56.50,DimASQP从46.10增至47.37。
- 论文利用vLLM的PagedAttention机制进行KV缓存重用和批处理,显著降低了多轮推理的计算开销,使得自洽生成在实际应用中可行(评估速度提升26-28倍)。
- SCSG在SemEval-2026 Task 3排行榜上表现优异,在所有8个语言-领域组合中均位列前七,并在部分英语子集和鞑靼语-餐厅子集上获得第一或第二名。
- 自洽机制在Gemma-3之外的其他LLM(Mistral-Small-3.2, Qwen3)上也能持续带来性能提升,证明了该方法的模型泛化性。
实验规模
实验基于SemEval-2026 Task 3的维度方面情感分析(DimABSA)基准,涵盖6种语言和3个领域(共8个语言-领域组合)。主要模型为LoRA微调的Gemma 3 (27B) 4位量化版本,并在NVIDIA RTX Pro 6000 (96GB VRAM) 上进行训练和评估。基线为单次推理,自洽机制评估了5、10、15次执行。后续还评估了Mistral-Small-3.2 (24B) 和 Qwen3 (32B) 的泛化性。数据集规模例如英语餐厅训练集2284个句子/3659个元组,测试集1000个句子/2129个元组。
局限性
尽管通过vLLM进行了优化,SCSG的多轮推理机制(k=15)仍带来显著的计算开销,限制了其在资源受限或实时性要求高的场景中的应用。此外,自洽机制本身并非新颖方法,论文主要贡献在于其在维度方面情感分析任务上的有效应用和工程优化,而非算法上的突破性创新。