Arxiv Insights - Curated Research Intelligence

核心发现

在固定轻量配置下，dual_film 在 TinyShakespeare 和 WikiText-2 1M 上都优于 single_global、single_local 和 dual_concat，说明收益来自“双分支结构 + 动态协调”，而不是单纯堆叠分支。
三随机种子结果排序一致，且 bidirectional FiLM 优于单向调制、Add 和 Cross，表明提升不是初始化偶然，也支持 FiLM 作为结构内协调机制而非普通融合头。
消融显示 window size 和 FiLM generator 容量并非极端敏感，同时调制强度呈通道选择性、层依赖和输入自适应，说明模型学到的是非静态的条件校准。
参数匹配时，扩宽后的单分支模型略优于 dual_film，说明该设计在固定宽度下有效，但尚未证明更强的参数效率或严格预算下的最优性。

实验规模

实验基于同一套轻量 decoder-only 双分支 Transformer 骨架：4 层、隐藏维 192、6 个 attention heads、序列长度 128、batch size 16、训练 3 个 epoch。数据集包括 TinyShakespeare 和 WikiText-2 的 100 万字符子集，并辅以一个受控辅助设置做机制分析。对比对象包含 single_global、single_local、dual_concat、dual_film，以及 Add、Gate、Cross、FiLM 等协调方式；关键结果使用 3 个随机种子（42/43/44），并做了方向、窗口大小、FiLM generator 容量和参数匹配公平基线（dim=360，约 6.49M 参数）等消融。

局限性

实验规模偏小，只覆盖 TinyShakespeare 和 WikiText-2 的 1M 字符子集，模型也只是 4 层、192 维的轻量原型，因此难以外推到真正的大模型或长上下文场景。更关键的是，在近似参数匹配下，扩宽后的单分支基线略优于 dual_film，说明论文只证明了固定宽度下的结构收益，并未证明严格参数效率优势。论文的基线主要是轻量融合/交互变体，缺少更强的现代长上下文或混合架构对照，因此结论的上限仍不清楚。