自然语言处理★ 评分 5.8
XAI-enhanced Comparative Opinion Mining via Aspect-based Scoring and Semantic Reasoning
Ngoc-Quang Le, T. Thanh-Lam Nguyen, Quoc-Trung Phu, Thi-Phuong Le, Duy-Cat Can, Hoang-Quynh Le
2026年3月3日
关键词
比较意见挖掘可解释人工智能Transformer模型基于方面评论分析
核心发现
- XCom模型通过整合基于方面的预处理、基于评分的分类器和基于语义的分类器,并利用SHAP提供解释,实现了对评论的比较意见挖掘。
- 在SUDO数据集上,XCom在所有评估指标上均取得了领先性能(例如,Macro-averaged F1约为58.5%),优于基于特征、微调Transformer和通用大型语言模型基线。
- SHAP模块提供了令牌级别的解释,量化了每个词对模型预测的贡献,并通过移除重要词汇后F1分数显著下降的实验,验证了其解释的忠实性。
- 消融研究表明,语义分类器是模型性能的主要驱动因素(移除后F1下降约30%),其次是方面分类(下降约17%),且概率分布求和的融合策略优于单一分类器融合(性能下降超16%)。
- XCom模型在计算效率上显著优于大型LLM,训练时间仅需约10小时,而LLM微调通常需要40-80小时,实现了性能与效率的平衡。
实验规模
实验在单一的SUDO数据集上进行,该数据集包含啤酒评论的隐式比较意见,并针对“外观”、“香气”、“口感”、“味道”四个方面进行标注。基线模型包括基于特征的FastText+SVM/XGBoost、微调的Transformer模型(BART/T5)以及通用大型语言模型(Llama-3.2-8B-Instruct, Gemini-2.5-Flash, ChatGPT-5.1)。XCom模型基于BERT编码器(约1.1亿参数),训练耗时约10小时,而LLM基线微调耗时40-80小时。评估指标为Macro和Micro平均的精确率、召回率和F1分数。
局限性
论文的核心局限在于其评估仅限于单一且规模有限的SUDO数据集(啤酒评论),这严重限制了模型结论的泛化能力。此外,尽管模型集成了多种现有技术,但其性能提升主要依赖于特定任务的组合优化,而非提出全新的范式,且对比的LLM基线并非充分微调,未能完全证明其在通用场景下的绝对优越性。