自然语言处理★ 评分 4.7

Olfactory-Inspired Sparse Combinatorial Coding for Low-Resource Named Entity Recognition

Bhushan Deshpande
2026年6月25日
关键词
低资源命名实体识别嗅觉启发表示学习稀疏组合编码BiLSTM-CRF信息瓶颈

核心发现

  1. 在6个NER数据集上,从零训练词向量并使用BiLSTM-CRF时,加入稀疏瓶颈后大多能提升F1,说明低资源场景里压缩表示确实有正则化价值。
  2. 1k句子严格低资源设定下,至少一个嗅觉式配置在6个数据集上都拿到最高均值F1,但多数提升与64维的普通Dense/Relu/L1瓶颈接近,表明主要收益来自一般性降维与稀疏化。
  3. Bangla是少数例外:普通瓶颈反而降性能,而受体-only配置显著优于最佳控制,说明结构化稀疏映射在某些语言上比无结构压缩更保真。
  4. receptor-only常优于完整受体-小球模型,但这被更大的128维输出容量严重混淆,难以证明“小球汇聚”本身优于更宽的表示。

实验规模

在CoNLL-2003英文集和WikiANN的Bangla、Hindi、Marathi、Tamil、Telugu上评估,全部使用300维随机初始化词向量、BiLSTM-CRF骨干和Adam(lr=0.001)、batch size 32、最多30轮、早停(patience=5)。完整实验使用3个随机种子,1k句子截断低资源控制使用5个随机种子;对比了标准BiLSTM-CRF、3种64维通用瓶颈控制,以及5种嗅觉式配置,参数量约从基线的1.14M降到0.64M-0.83M(不含embedding)。

局限性

核心问题是方法贡献被明显的容量效应和一般性正则化效应遮蔽:receptor-only更强,很可能只是因为输出维度更大,而不是因为生物启发结构本身更优。对照基线虽然有通用瓶颈,但仍主要停留在BiLSTM-CRF和低资源NER这一窄场景,缺少更强序列模型、统计显著性检验和更系统的消融来支撑“嗅觉式编码”的独立价值。

Paper ID: 2606.21895