GRAG: Generic Response-Augmented Generation Framework for Personalized Conversational Systems
核心发现
- 将人格化回复生成拆成“内容脚手架 + 人格注入”两步后,小模型更容易学到对话结构,ROUGE-2和BLEU在三个数据集上均优于直接把persona和history拼接的SFT基线。
- PostGRAG通过独立编码persona/history/generic response并加入style embedding,整体优于PreGRAG,说明显式解耦多源信息比单一前融合更有效。
- C-JEPA把generic response当作对比目标后,能进一步拉开个性化回复与泛化回复的表示差异,但增益主要体现在结构一致性指标,对真正的个性化提升有限。
- 人工和LLM评测都显示,GRAG更多改善的是自然性、相关性和内容丰富度,而不是显著增强人格贴合度,论文自己的结论也指向“地面锚定”才是主要瓶颈。
- 这种方法的有效性依赖高质量generic response,且仍需先调用大模型生成中间脚手架,说明它更像训练期增强方案,而非真正消除推理成本的端到端解决方案。
实验规模
在三个基准对话数据集上评估:Synthetic Persona Chat(8,369/941/901个对话,112,264/12,894/12,167个agent turns)、EmpatheticDialogues(19,533/2,770/2,547个对话,40,254/5,738/5,259个agent turns)、Persuasion-for-Good(888/98/98个对话,8,386/920/920个agent turns)。generic response由4-bit量化的Llama-3.1-8B-Instruct离线生成;ICL基线使用4-bit量化Qwen2.5-32B-Instruct;SFT和GRAG主要以BART-base为初始化,也比较了T5-base、GPT2-medium、Llama3.2-1B-Instruct、Qwen3-0.6B,并对后两类使用QLoRA。训练使用AdamW,BART在RTX 4060 Ti 16GB上训练20个epoch,并对alpha、beta和学习率做网格搜索;基线包括ICL(Hist)、ICL(TST)、PreSFT(Hist)、PreSFT(TST),再与PreGRAG和PostGRAG对比,另在人类/LLM评测中抽样145个SPC turn并扩展到2000个turn。
局限性
方法的核心增益来自额外引入的generic response,但这一步仍依赖大型LLM离线生成,推理链路更长,并没有从根本上解决资源受限环境下的总体成本问题。实验主要集中在静态文本persona和三个相对常见的数据集上,泛化到动态、多模态或真实线上场景的证据不足。另一个问题是,主要指标提升集中在ROUGE/BLEU等内容对齐指标,人工评测也显示人格增益多为小幅改进,说明“个性化”本身并未被充分突破。