Arxiv Insights - Curated Research Intelligence

核心发现

将任务路由与视觉推理前置分离后，FOCAL只对少量关键动作触发VLM，因此相较全量处理显著降低VCC和TCS，同时不必把每一帧都送入重模型。
任务隔离记忆比全局共享记忆更能抑制跨任务污染；在多任务与A→B→A中断场景里，KIR、Task Acc和G-Eval均明显优于朴素基线和共享记忆版本。
朴素方法虽然在BS-F1上接近甚至略高，但其KIR和G-Eval很差，说明单纯的语义重叠指标无法识别任务边界错误，必须看任务级忠实度。
证据链表明，真正提升质量的不是更多上下文，而是更早的选择性采样与按任务写入；一旦记忆不隔离，跨任务信息会直接拉低总结可用性。

实验规模

在自建DesktopBench上评估：由VideoGUI重构得到420个会话、2,572张截图，其中DesktopBench-Multitask包含320个会话（每个会话2–4个任务，平均17.3步），DesktopBench-Interruption包含100个A→B→A会话（平均16.5步，固定2个任务）。实验在MacBook M4、16GB统一内存上进行，统一使用本地qwen3:8b作为推理模型；对比Naive LLM Agent（全量VLM处理）与FOCAL-GM（共享记忆），并做Brain/Memory消融。评估指标包括VCC、TCS、BS-F1、Task Acc、KIR和G-Eval。

局限性

数据集规模不算大，而且DesktopBench是从VideoGUI重构并通过模板化方式组装会话，真实桌面工作流的分布复杂度与噪声覆盖仍有限。对比基线偏弱，主要是朴素全量处理和共享记忆消融，缺少与更强GUI代理、检索式长上下文方法或规则/启发式分段方法的系统比较。KIR与G-Eval依赖模型裁判，评价链条可能与生成模型偏置耦合；同时论文强调端侧效率，但没有给出更全面的延迟、能耗和多硬件配置验证。