Arxiv Insights - Curated Research Intelligence

核心发现

Mamba-Transformer混合架构首次应用于抽取式摘要，通过Transformer编码句子级语义，Mamba处理文档级序列依赖，实现了对长文档的无截断处理和线性时间复杂度。
在低资源场景下，模型在新闻、议论和科学领域（CNN/DailyMail, DebateSum, ArXiv）的数据集上，ROUGE-1分数相较于BERTSUM和MATCHSUM有显著提升（ArXiv上ROUGE-1提升高达0.23），且统计学意义显著（p<0.001）。
模型能够处理完整文档，在最长的ArXiv文档上表现出最大的质量提升；在新闻摘要任务上，推理速度提升了24-27%。
在每个数据集仅使用200个文档进行训练的限制下，模型仍能保持强大的跨领域性能，展现出低资源鲁棒性。

实验规模

实验在CNN/DailyMail、DebateSum、ArXiv三个数据集上进行，每个数据集仅使用200个文档（120训练/40验证/40测试）。模型架构采用BERT-base-uncased编码器（1.1亿参数，768维嵌入）结合Mamba-130M状态空间模型（NF4量化，$d_{state}=16, d_{conv}=4$）和一个线性分类器。训练使用Adam优化器（学习率$1\times 10^{-5}$），二元交叉熵损失，批大小1（带梯度累积），训练2个epoch。基线模型为BERTSUM和MATCHSUM。实验在NVIDIA A100 GPU (40GB)上进行。

局限性

实验规模受限于每个数据集200个文档，这可能限制了模型在更大规模数据上的泛化能力。基线模型选择偏旧，且在低资源设置下无法有效比较更新的抽取式方法，使得其性能优势的普适性存疑。模型在重要性排序和实体优先级方面存在不足，未能显式建模这些关键的摘要生成因素。