智能体系统★ 评分 5.3
FOCAL: Filtered On-device Continuous Activity Logging for Efficient Personal Desktop Summarization
Haoran Yin, Zhiyuan Wen, Jiannong Cao, Bo Yuan, Ruosong Yang
2026年4月26日
关键词
桌面活动日志任务隔离记忆端侧推理多智能体系统任务切换
核心发现
- 将任务路由与视觉推理前置分离后,FOCAL只对少量关键动作触发VLM,因此相较全量处理显著降低VCC和TCS,同时不必把每一帧都送入重模型。
- 任务隔离记忆比全局共享记忆更能抑制跨任务污染;在多任务与A→B→A中断场景里,KIR、Task Acc和G-Eval均明显优于朴素基线和共享记忆版本。
- 朴素方法虽然在BS-F1上接近甚至略高,但其KIR和G-Eval很差,说明单纯的语义重叠指标无法识别任务边界错误,必须看任务级忠实度。
- 证据链表明,真正提升质量的不是更多上下文,而是更早的选择性采样与按任务写入;一旦记忆不隔离,跨任务信息会直接拉低总结可用性。
实验规模
在自建DesktopBench上评估:由VideoGUI重构得到420个会话、2,572张截图,其中DesktopBench-Multitask包含320个会话(每个会话2–4个任务,平均17.3步),DesktopBench-Interruption包含100个A→B→A会话(平均16.5步,固定2个任务)。实验在MacBook M4、16GB统一内存上进行,统一使用本地qwen3:8b作为推理模型;对比Naive LLM Agent(全量VLM处理)与FOCAL-GM(共享记忆),并做Brain/Memory消融。评估指标包括VCC、TCS、BS-F1、Task Acc、KIR和G-Eval。
局限性
数据集规模不算大,而且DesktopBench是从VideoGUI重构并通过模板化方式组装会话,真实桌面工作流的分布复杂度与噪声覆盖仍有限。对比基线偏弱,主要是朴素全量处理和共享记忆消融,缺少与更强GUI代理、检索式长上下文方法或规则/启发式分段方法的系统比较。KIR与G-Eval依赖模型裁判,评价链条可能与生成模型偏置耦合;同时论文强调端侧效率,但没有给出更全面的延迟、能耗和多硬件配置验证。