智能体系统★ 评分 4.9
Do LLMs Need to See Everything? A Benchmark and Study of Failures in LLM-driven Smartphone Automation using Screentext vs. Screenshots
Shiquan Zhang, Tianyi Zhang, Le Fang, Simon D'Alfonso, Hong Jia, Vassilis Kostakos
2026年4月26日
关键词
移动智能体手机自动化屏幕文本截图模态失败分析
核心发现
- DailyDroid 将手机自动化评测扩展为 75 个任务、25 个应用、5 类场景、3 个难度,提供了一个面向日常使用而非玩具任务的失败分析基准。
- 300 次评测表明,screentext + screenshot 相比纯 screentext 仅带来约 4%~6% 的成功率提升,但 token、延迟和总成本明显上升,说明“看图”不是免费的通用增益。
- 全部失败中,系统级失败占主导,核心原因是 UI 元素缺失、不可访问或难以解析;这意味着很多任务并非模型推理不足,而是界面根本没有把可行动信息暴露给代理。
- o4-mini 在成功率和预测错误率上略优于 GPT-4o,但更容易因反复自我修正而撞上 10 步上限,暴露出更强推理能力会被动作空间和步数预算所约束。
实验规模
在 Android 11 的 Pixel XL 模拟器上,使用 AutoTask 框架对 DailyDroid 的 75 个任务进行评测;任务覆盖 25 个主流 Android 应用、5 大场景和 3 个难度级别,共形成 300 次运行(75×2 种输入模态×2 个模型)。对比的模型是 GPT-4o(基线)与 o4-mini(推理型),输入模态为纯 screentext 与 screentext+ screenshot;每个任务最多执行 10 步,并统计成功率、失败类型、时间、步数、token 和成本,随后对失败日志做人工复核与归因编码。
局限性
实验规模和覆盖面仍然有限:75 个任务来自作者手工设计的 25 个应用,且每个任务每种设置只跑一次,缺少重复实验、统计显著性检验和更大规模的真实用户分布。对比对象也偏窄,只在 AutoTask 管线上测试 GPT-4o 与 o4-mini,没有纳入纯 screenshot、其他手机代理或更强的开源基线,因此关于模态优劣和模型优劣的外推都只能算初步。失败分类主要依赖人工归纳编码,尽管做了审计,主观性和可复现性风险仍然存在。