自然语言处理★ 评分 5.5

OpenAutoNLU: Open Source AutoML Library for NLU

Grigory Arshinov, Aleksandr Boriskin, Sergey Senichev, Ayaz Zaripov, Daria Galimzianova, Daniil Karpov, Leonid Sanochkin
2026年3月3日
关键词
自然语言理解自动化机器学习数据感知训练域外检测低代码

核心发现

  1. OpenAutoNLU通过数据感知机制自动选择训练方案(AncSetFit、SetFit、全量微调),无需手动配置,简化了NLU任务流程。
  2. 集成了数据质量诊断工具(如Retag、Dataset Cartography),用于识别标注错误和低信号样本,提升数据可靠性。
  3. 提供可配置的OOD检测层,支持有监督和无监督模式,并在多个基准测试中展现出领先或竞争性的OOD检测性能。
  4. 在多个意图分类数据集上,OpenAutoNLU在宏F1分数上与现有AutoML框架相当或更优,尤其在OOD-unaware场景下表现突出。
  5. 引入LLM驱动的数据增强和合成测试集生成功能,尤其在低资源场景下,能有效生成训练或评估样本。

实验规模

实验在Banking77、HWU64、MASSIVE和SNIPS四个意图分类数据集上进行,涵盖低(5-10样本/类)、中(81-100样本/类)和全数据量三种数据规模。评估指标包括F1-macro、F1-in-scope和F1-OOD。对比基线包括AutoIntent、AutoGluon、LightAutoML和H2O AutoML。所有实验均在配备NVIDIA H100 GPU的单台机器上运行,并对三个随机种子取平均。OOD评估分为OOD-aware和OOD-in-test两种模式,并细分了不同语义距离的OOD样本。LLM生成测试集实验使用了GPT-4o-mini。

局限性

尽管论文声称支持文本分类和命名实体识别,但实验评估主要集中在意图分类任务,缺乏NER任务的详细性能对比,限制了其作为通用NLU AutoML库的普适性。此外,LLM生成的测试集在较大样本量下可靠性不足,且关于计算成本优势的关键图表(图2)在文本中缺失,削弱了部分论证的严谨性。

Paper ID: 2603.01824v1