智能体系统★ 评分 4.9

Do LLMs Need to See Everything? A Benchmark and Study of Failures in LLM-driven Smartphone Automation using Screentext vs. Screenshots

Shiquan Zhang, Tianyi Zhang, Le Fang, Simon D'Alfonso, Hong Jia, Vassilis Kostakos
2026年4月26日
关键词
移动智能体手机自动化屏幕文本截图模态失败分析

核心发现

  1. DailyDroid 将手机自动化评测扩展为 75 个任务、25 个应用、5 类场景、3 个难度,提供了一个面向日常使用而非玩具任务的失败分析基准。
  2. 300 次评测表明,screentext + screenshot 相比纯 screentext 仅带来约 4%~6% 的成功率提升,但 token、延迟和总成本明显上升,说明“看图”不是免费的通用增益。
  3. 全部失败中,系统级失败占主导,核心原因是 UI 元素缺失、不可访问或难以解析;这意味着很多任务并非模型推理不足,而是界面根本没有把可行动信息暴露给代理。
  4. o4-mini 在成功率和预测错误率上略优于 GPT-4o,但更容易因反复自我修正而撞上 10 步上限,暴露出更强推理能力会被动作空间和步数预算所约束。

实验规模

在 Android 11 的 Pixel XL 模拟器上,使用 AutoTask 框架对 DailyDroid 的 75 个任务进行评测;任务覆盖 25 个主流 Android 应用、5 大场景和 3 个难度级别,共形成 300 次运行(75×2 种输入模态×2 个模型)。对比的模型是 GPT-4o(基线)与 o4-mini(推理型),输入模态为纯 screentext 与 screentext+ screenshot;每个任务最多执行 10 步,并统计成功率、失败类型、时间、步数、token 和成本,随后对失败日志做人工复核与归因编码。

局限性

实验规模和覆盖面仍然有限:75 个任务来自作者手工设计的 25 个应用,且每个任务每种设置只跑一次,缺少重复实验、统计显著性检验和更大规模的真实用户分布。对比对象也偏窄,只在 AutoTask 管线上测试 GPT-4o 与 o4-mini,没有纳入纯 screenshot、其他手机代理或更强的开源基线,因此关于模态优劣和模型优劣的外推都只能算初步。失败分类主要依赖人工归纳编码,尽管做了审计,主观性和可复现性风险仍然存在。

Paper ID: 2604.17817