自然语言处理★ 评分 5.4

AdaMem: Learning What to Remember for Personalized Long-Horizon LLM Agents

Xingyu Chen, Rui Wang, Zhaopeng Tu, Liefeng Bo
2026年6月25日
关键词
长程记忆个性化LLM代理记忆政策反馈自反思检索增强生成

核心发现

  1. 长程记忆的主要矛盾不是“能否提取”,而是“写入控制”是否能过滤掉无关事实;否则记忆库会因杂讯膨胀,检索时挤占有效上下文并拉低后续QA准确率。
  2. AdaMem用结构化的角色/偏好记忆政策约束日常抽取,再用每周QA反馈做补丁式自反思和失败回滚,能把抽取策略逐步对齐到用户真正关心的信息。
  3. 在AdaMem-Bench上,相比统一抽取基线Mem0,AdaMem在四个实验单元里都提高了QA准确率,并且同时降低了记忆量,说明收益不是单纯“多记一些”换来的。
  4. 增益主要集中在情绪、时间安排、决定/承诺等“软偏好”类别;对事实/数字类问题提升很小,说明方法的价值主要在于区分“用户在意”与“语义上显著但不重要”的信息。
  5. 误差分析表明,现代LLM基本能遵循显式政策,真正瓶颈在于从弱反馈中反推出偏好政策;隐式反馈下政策对齐停滞,直接限制了长期效果。

实验规模

在自建的AdaMem-Bench上评估:共5个长程互动故事、10周连续对话、逐周QA反馈闭环;每个环境包含多个角色及其偏好,人工标注session级golden memories,并按周生成偏好对齐QA。对比基线包括Full Context、Ideal Memory和Mem0;AdaMem与Mem0分别在两种抽取模型上测试(DeepSeek-V4-Flash、Gemini-3.5-Flash),并在两种反馈模式下评估(Explicit、Implicit)。评价指标包括QA Accuracy、Extraction F1、Memory Efficiency Ratio和记忆体积,QA判定由deepseek-v4-flash作为独立judge完成。

局限性

主要局限是数据集为合成的长程交互,只有5个故事,规模偏小且分布可控,难以证明在真实用户、真实噪声和长期偏好漂移下同样稳定。实验还高度依赖LLM-as-a-judge,并且只覆盖两种抽取模型和少量基线,外部有效性与基线覆盖都不够强。隐式反馈下政策学习明显停滞,说明方法对弱监督偏好推断仍然脆弱,回滚机制只能抑制灾难性退化,不能解决根本问题。

Paper ID: 2606.21144