自然语言处理★ 评分 4.8

FiLM-Coordinated Dual-Branch Transformer for Global-Local Dependency Modeling in Language Modeling

Zhiqiang Zhou, Xu Ling, Junliang Dai
2026年6月25日
关键词
FiLM调制双分支Transformer全局局部建模语言模型特征线性调制

核心发现

  1. 在固定轻量配置下,dual_film 在 TinyShakespeare 和 WikiText-2 1M 上都优于 single_global、single_local 和 dual_concat,说明收益来自“双分支结构 + 动态协调”,而不是单纯堆叠分支。
  2. 三随机种子结果排序一致,且 bidirectional FiLM 优于单向调制、Add 和 Cross,表明提升不是初始化偶然,也支持 FiLM 作为结构内协调机制而非普通融合头。
  3. 消融显示 window size 和 FiLM generator 容量并非极端敏感,同时调制强度呈通道选择性、层依赖和输入自适应,说明模型学到的是非静态的条件校准。
  4. 参数匹配时,扩宽后的单分支模型略优于 dual_film,说明该设计在固定宽度下有效,但尚未证明更强的参数效率或严格预算下的最优性。

实验规模

实验基于同一套轻量 decoder-only 双分支 Transformer 骨架:4 层、隐藏维 192、6 个 attention heads、序列长度 128、batch size 16、训练 3 个 epoch。数据集包括 TinyShakespeare 和 WikiText-2 的 100 万字符子集,并辅以一个受控辅助设置做机制分析。对比对象包含 single_global、single_local、dual_concat、dual_film,以及 Add、Gate、Cross、FiLM 等协调方式;关键结果使用 3 个随机种子(42/43/44),并做了方向、窗口大小、FiLM generator 容量和参数匹配公平基线(dim=360,约 6.49M 参数)等消融。

局限性

实验规模偏小,只覆盖 TinyShakespeare 和 WikiText-2 的 1M 字符子集,模型也只是 4 层、192 维的轻量原型,因此难以外推到真正的大模型或长上下文场景。更关键的是,在近似参数匹配下,扩宽后的单分支基线略优于 dual_film,说明论文只证明了固定宽度下的结构收益,并未证明严格参数效率优势。论文的基线主要是轻量融合/交互变体,缺少更强的现代长上下文或混合架构对照,因此结论的上限仍不清楚。

Paper ID: 2606.21075