Arxiv Insights - Curated Research Intelligence

核心发现

DailyDroid 将手机自动化评测扩展为 75 个任务、25 个应用、5 类场景、3 个难度，提供了一个面向日常使用而非玩具任务的失败分析基准。
300 次评测表明，screentext + screenshot 相比纯 screentext 仅带来约 4%～6% 的成功率提升，但 token、延迟和总成本明显上升，说明“看图”不是免费的通用增益。
全部失败中，系统级失败占主导，核心原因是 UI 元素缺失、不可访问或难以解析；这意味着很多任务并非模型推理不足，而是界面根本没有把可行动信息暴露给代理。
o4-mini 在成功率和预测错误率上略优于 GPT-4o，但更容易因反复自我修正而撞上 10 步上限，暴露出更强推理能力会被动作空间和步数预算所约束。

实验规模

在 Android 11 的 Pixel XL 模拟器上，使用 AutoTask 框架对 DailyDroid 的 75 个任务进行评测；任务覆盖 25 个主流 Android 应用、5 大场景和 3 个难度级别，共形成 300 次运行（75×2 种输入模态×2 个模型）。对比的模型是 GPT-4o（基线）与 o4-mini（推理型），输入模态为纯 screentext 与 screentext+ screenshot；每个任务最多执行 10 步，并统计成功率、失败类型、时间、步数、token 和成本，随后对失败日志做人工复核与归因编码。

局限性

实验规模和覆盖面仍然有限：75 个任务来自作者手工设计的 25 个应用，且每个任务每种设置只跑一次，缺少重复实验、统计显著性检验和更大规模的真实用户分布。对比对象也偏窄，只在 AutoTask 管线上测试 GPT-4o 与 o4-mini，没有纳入纯 screenshot、其他手机代理或更强的开源基线，因此关于模态优劣和模型优劣的外推都只能算初步。失败分类主要依赖人工归纳编码，尽管做了审计，主观性和可复现性风险仍然存在。