自然语言处理★ 评分 5.5

Efficient Extractive Summarization with MAMBA-Transformer Hybrids for Low-Resource Scenarios

Nisrine Ait Khayi
2026年3月3日
关键词
MambaTransformer抽取式摘要低资源混合模型

核心发现

  1. Mamba-Transformer混合架构首次应用于抽取式摘要,通过Transformer编码句子级语义,Mamba处理文档级序列依赖,实现了对长文档的无截断处理和线性时间复杂度。
  2. 在低资源场景下,模型在新闻、议论和科学领域(CNN/DailyMail, DebateSum, ArXiv)的数据集上,ROUGE-1分数相较于BERTSUM和MATCHSUM有显著提升(ArXiv上ROUGE-1提升高达0.23),且统计学意义显著(p<0.001)。
  3. 模型能够处理完整文档,在最长的ArXiv文档上表现出最大的质量提升;在新闻摘要任务上,推理速度提升了24-27%。
  4. 在每个数据集仅使用200个文档进行训练的限制下,模型仍能保持强大的跨领域性能,展现出低资源鲁棒性。

实验规模

实验在CNN/DailyMail、DebateSum、ArXiv三个数据集上进行,每个数据集仅使用200个文档(120训练/40验证/40测试)。模型架构采用BERT-base-uncased编码器(1.1亿参数,768维嵌入)结合Mamba-130M状态空间模型(NF4量化,$d_{state}=16, d_{conv}=4$)和一个线性分类器。训练使用Adam优化器(学习率$1\times 10^{-5}$),二元交叉熵损失,批大小1(带梯度累积),训练2个epoch。基线模型为BERTSUM和MATCHSUM。实验在NVIDIA A100 GPU (40GB)上进行。

局限性

实验规模受限于每个数据集200个文档,这可能限制了模型在更大规模数据上的泛化能力。基线模型选择偏旧,且在低资源设置下无法有效比较更新的抽取式方法,使得其性能优势的普适性存疑。模型在重要性排序和实体优先级方面存在不足,未能显式建模这些关键的摘要生成因素。

Paper ID: 2603.01288v1