Arxiv Insights - Curated Research Intelligence

核心发现

长程记忆的主要矛盾不是“能否提取”，而是“写入控制”是否能过滤掉无关事实；否则记忆库会因杂讯膨胀，检索时挤占有效上下文并拉低后续QA准确率。
AdaMem用结构化的角色/偏好记忆政策约束日常抽取，再用每周QA反馈做补丁式自反思和失败回滚，能把抽取策略逐步对齐到用户真正关心的信息。
在AdaMem-Bench上，相比统一抽取基线Mem0，AdaMem在四个实验单元里都提高了QA准确率，并且同时降低了记忆量，说明收益不是单纯“多记一些”换来的。
增益主要集中在情绪、时间安排、决定/承诺等“软偏好”类别；对事实/数字类问题提升很小，说明方法的价值主要在于区分“用户在意”与“语义上显著但不重要”的信息。
误差分析表明，现代LLM基本能遵循显式政策，真正瓶颈在于从弱反馈中反推出偏好政策；隐式反馈下政策对齐停滞，直接限制了长期效果。

实验规模

在自建的AdaMem-Bench上评估：共5个长程互动故事、10周连续对话、逐周QA反馈闭环；每个环境包含多个角色及其偏好，人工标注session级golden memories，并按周生成偏好对齐QA。对比基线包括Full Context、Ideal Memory和Mem0；AdaMem与Mem0分别在两种抽取模型上测试（DeepSeek-V4-Flash、Gemini-3.5-Flash），并在两种反馈模式下评估（Explicit、Implicit）。评价指标包括QA Accuracy、Extraction F1、Memory Efficiency Ratio和记忆体积，QA判定由deepseek-v4-flash作为独立judge完成。

局限性

主要局限是数据集为合成的长程交互，只有5个故事，规模偏小且分布可控，难以证明在真实用户、真实噪声和长期偏好漂移下同样稳定。实验还高度依赖LLM-as-a-judge，并且只覆盖两种抽取模型和少量基线，外部有效性与基线覆盖都不够强。隐式反馈下政策学习明显停滞，说明方法对弱监督偏好推断仍然脆弱，回滚机制只能抑制灾难性退化，不能解决根本问题。