腾讯混元围绕 Phone GUI 的一揽子工作

作者：腾讯混元围绕 Phone GUI 的一揽子工作

🔥最近腾讯在 Phone GUI 领域放大招，一口气发布了五篇论文！ ▎🚀在训练维度，PhoneBuddy (arXiv: 2606.23049) 针对真实App运行慢、难重置以及模拟环境不真实的问题，将真实App与模拟环境相结合，进行训练。在150个真实任务的人类评估中，任务成功率由SFT的36.67%提至真实RL的40.67%，混合RL后更是达到45.33%，证明模拟训练与真实强化学习能完美互补。 ▎🌐在环境构建上，PhoneWorld (arXiv: 2605.29486) 解决了手机环境难以规模化构建的瓶颈。它能将真实GUI轨迹与截图自动转化为可运行的模拟App、任务及自动验证器，目前已覆盖16个领域的34个App。实验表明，用其数据替换部分传统数据后，模型在AndroidWorld等多个基准上均有大幅提升。 ▎⚙️针对运行控制，PhoneHarness (arXiv: 2606.14832) 打破了单一GUI的限制。它是一个混合动作执行框架，支持Agent在GUI、命令行和主机工具间进行动作路由与验证，侧重于评估任务实际产生的副作用。在该框架下，Agent达到了75.0%的通过率，证明手机自动化高度依赖动作路由与可验证执行。 ▎🔒在隐私保护上，PhonePrivacy (arXiv: 2604.00986) 引入了MyPhoneBench评估框架，通过“iMy”最小隐私契约，对前沿模型的隐私合规性进行审计。结果显示，任务成功率与隐私合规不可兼得，最普遍的失败在于Agent会在任务不要求时过度填写非必要的个人信息。 ▎🛡️在安全防御方面，PhoneSafety (arXiv: 2605.07630) 构建了包含130多个App中700个安全关键时刻的基准，成功将Agent的“主动避险”与“因能力不足而无法行动”区分开来。评估发现，通用能力强的模型在危险时刻不一定更安全，许多无害结果仅是因为Agent在复杂界面中完全死机。 💡腾讯系列工作不仅提供了强大的训练配方（PhoneBuddy）和环境生成器（PhoneWorld），还为 Agent 的实际落地铺平了运行（PhoneHarness）、隐私（PhonePrivacy）和安全（PhoneSafety）的红线标准。这绝对是 GUI Agent 迈向实用化、安全化的一大步！ #腾讯 #混元 #howto用好AI

文章详情

腾讯混元围绕 Phone GUI 的一揽子工作

推荐阅读