Arxiv Insights - Curated Research Intelligence

核心发现

将人格化回复生成拆成“内容脚手架 + 人格注入”两步后，小模型更容易学到对话结构，ROUGE-2和BLEU在三个数据集上均优于直接把persona和history拼接的SFT基线。
PostGRAG通过独立编码persona/history/generic response并加入style embedding，整体优于PreGRAG，说明显式解耦多源信息比单一前融合更有效。
C-JEPA把generic response当作对比目标后，能进一步拉开个性化回复与泛化回复的表示差异，但增益主要体现在结构一致性指标，对真正的个性化提升有限。
人工和LLM评测都显示，GRAG更多改善的是自然性、相关性和内容丰富度，而不是显著增强人格贴合度，论文自己的结论也指向“地面锚定”才是主要瓶颈。
这种方法的有效性依赖高质量generic response，且仍需先调用大模型生成中间脚手架，说明它更像训练期增强方案，而非真正消除推理成本的端到端解决方案。

实验规模

在三个基准对话数据集上评估：Synthetic Persona Chat（8,369/941/901个对话，112,264/12,894/12,167个agent turns）、EmpatheticDialogues（19,533/2,770/2,547个对话，40,254/5,738/5,259个agent turns）、Persuasion-for-Good（888/98/98个对话，8,386/920/920个agent turns）。generic response由4-bit量化的Llama-3.1-8B-Instruct离线生成；ICL基线使用4-bit量化Qwen2.5-32B-Instruct；SFT和GRAG主要以BART-base为初始化，也比较了T5-base、GPT2-medium、Llama3.2-1B-Instruct、Qwen3-0.6B，并对后两类使用QLoRA。训练使用AdamW，BART在RTX 4060 Ti 16GB上训练20个epoch，并对alpha、beta和学习率做网格搜索；基线包括ICL(Hist)、ICL(TST)、PreSFT(Hist)、PreSFT(TST)，再与PreGRAG和PostGRAG对比，另在人类/LLM评测中抽样145个SPC turn并扩展到2000个turn。

局限性

方法的核心增益来自额外引入的generic response，但这一步仍依赖大型LLM离线生成，推理链路更长，并没有从根本上解决资源受限环境下的总体成本问题。实验主要集中在静态文本persona和三个相对常见的数据集上，泛化到动态、多模态或真实线上场景的证据不足。另一个问题是，主要指标提升集中在ROUGE/BLEU等内容对齐指标，人工评测也显示人格增益多为小幅改进，说明“个性化”本身并未被充分突破。