自然语言处理★ 评分 6.8
LLM-as-an-Annotator: Training Lightweight Models with LLM-Annotated Examples for Aspect Sentiment Tuple Prediction
Nils Constantin Hellwig, Jakob Fehle, Udo Kruschwitz, Christian Wolff
2026年3月3日
关键词
方面情感分析大语言模型数据标注低资源学习能源效率
核心发现
- LA-ABSA方法通过LLM标注无标签数据,然后用这些数据微调轻量级模型(如T5-base),在低资源场景下(0, 10, 50个标注示例)实现了与Gemma-3-27B进行上下文学习(ICL)相当或更优的F1分数。
- LA-ABSA在所有评估场景中均显著优于传统数据增强方法(如EDA、QAIE和DS2-ABSA),F1分数差距在某些情况下超过20个百分点。
- LA-ABSA在处理超过2,000个示例时,相比LLM直接提示展现出显著的能源效率优势,其能耗远低于直接调用大型LLM进行推理。
- 尽管LA-ABSA表现出色,但其性能仍未能达到使用完整人工标注数据集训练的SOTA模型水平,平均F1分数在ASQP任务上低约9个百分点。
- 统计显著性检验(Bonferroni-Holm校正的t检验)显示,在大多数情况下,LA-ABSA、LLM提示和全量人工标注微调模型之间没有显著差异,这表明LA-ABSA在性能上具有竞争力。
实验规模
该研究在五种不同领域的数据集上进行了评估:SemEval 2015/2016 Rest、FlightABSA、Coursera和Hotels,涵盖了目标方面情感检测(TASD)和方面情感四元组预测(ASQP)两项任务。实验在0、10或50个初始人工标注示例的低资源场景下进行。用于标注的LLM是Gemma-3-27B(274亿参数),轻量级模型为T5-base(2.23亿参数),采用DLO和Paraphrase两种微调方法。基线包括直接在人工标注数据上微调的Paraphrase和DLO模型、Gemma-3-27B的零样本/少样本ICL表现,以及EDA、QAIE、DS2-ABSA等数据增强方法。所有实验均在单个NVIDIA RTX A5000 GPU(24GB VRAM)上进行,评估指标为微平均F1分数、能耗(mWh)和预测时间。
局限性
该研究的局限性在于,LLM生成的标注数据训练出的模型性能仍未完全达到人工标注数据的水平。此外,由于计算资源限制,仅评估了Gemma-3-27B这一种LLM,未能探索其他LLM或结合推理链(Chain-of-Thought)等高级提示策略对标注质量的影响。论文中关于统计显著性与F1分数数值差距的表述略显模糊,可能存在统计检验效力不足或对“无显著差异”的解释过于宽泛的问题。