🔥最近腾讯在 Phone GUI 领域放大招,一口气发布了五篇论文! ▎🚀在训练维度,PhoneBuddy (arXiv: 2606.23049) 针对真实App运行慢、难重置以及模拟环境不真实的问题,将真实App与模拟环境相结合,进行训练。在150个真实任务的人类评估中,任务成功率由SFT的36.67%提至真实RL的40.67%,混合RL后更是达到45.33%,证明模拟训练与真实强化学习能完美互补。 ▎🌐在环境构建上,PhoneWorld (arXiv: 2605.29486) 解决了手机环境难以规模化构建的瓶颈。它能将真实GUI轨迹与截图自动转化为可运行的模拟App、任务及自动验证器,目前已覆盖16个领域的34个App。实验表明,用其数据替换部分传统数据后,模型在AndroidWorld等多个基准上均有大幅提升。 ▎⚙️针对运行控制,PhoneHarness (arXiv: 2606.14832) 打破了单一GUI的限制。它是一个混合动作执行框架,支持Agent在GUI、命令行和主机工具间进行动作路由与验证,侧重于评估任务实际产生的副作用。在该框架下,Agent达到了75.0%的通过率,证明手机自动化高度依赖动作路由与可验证执行。 ▎🔒在隐私保护上,PhonePrivacy (arXiv: 2604.00986) 引入了MyPhoneBench评估框架,通过“iMy”最小隐私契约,对前沿模型的隐私合规性进行审计。结果显示,任务成功率与隐私合规不可兼得,最普遍的失败在于Agent会在任务不要求时过度填写非必要的个人信息。 ▎🛡️在安全防御方面,PhoneSafety (arXiv: 2605.07630) 构建了包含130多个App中700个安全关键时刻的基准,成功将Agent的“主动避险”与“因能力不足而无法行动”区分开来。评估发现,通用能力强的模型在危险时刻不一定更安全,许多无害结果仅是因为Agent在复杂界面中完全死机。 💡腾讯系列工作不仅提供了强大的训练配方(PhoneBuddy)和环境生成器(PhoneWorld),还为 Agent 的实际落地铺平了运行(PhoneHarness)、隐私(PhonePrivacy)和安全(PhoneSafety)的红线标准。这绝对是 GUI Agent 迈向实用化、安全化的一大步! #腾讯 #混元 #howto用好AI