登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
返回列表
首页
›
业界区
›
业界
›
不用手也能玩手机?多代理协作框架让 APP 自动执行任务 ...
不用手也能玩手机?多代理协作框架让 APP 自动执行任务
[ 复制链接 ]
空娅芬
2025-10-1 18:53:54
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
原文:https://mp.weixin.qq.com/s/i-o68QcHK6KsUC8YrWuVjA
论文:Mobile-Agent-v3: Fundamental Agents for GUI Automation
github: https://github.com/X-PLUG/MobileAgent
全文摘要
本文介绍了一种名为Mobile-Agent-v3的通用GUI代理框架,该框架基于开源模型GUI-Owl,并在其基础上进行了进一步的性能提升。GUI-Owl是一种基础GUI代理模型,可以在桌面和移动环境中实现地面上下文理解、问答、规划、决策和一般性程序知识。此外,该模型还具有大规模环境基础设施、多样化基础代理能力构建和可扩展环境RL等关键创新点。实验结果表明,Mobile-Agent-v3在AndroidWorld和OSWorld基准测试中分别取得了73.3和37.7的成绩,达到了新的GUI代理框架中的最佳水平。
论文方法
方法描述
该论文提出了一种名为“GUI-Owl”的多模态强化学习框架,用于实现复杂图形用户界面(GUI)任务的自动化。该框架采用了多种数据合成策略来增强模型的推理能力,并引入了迭代在线拒绝采样、自适应奖励函数等技术来提高模型的性能。此外,该论文还介绍了Mobile-Agent-v3多代理协作框架,通过四个专门的代理来实现任务规划、子任务执行和反思推理等功能。
方法改进
与传统的基于手动标注的方法相比,GUI-Owl框架利用自我监督的方式生成大量的高质量交互轨迹数据,从而减少了人工标注的需求。同时,该框架采用了大规模预训练、迭代调优和强化学习等多种技术手段,进一步提高了模型在实际应用中的稳定性和可靠性。此外,Mobile-Agent-v3多代理协作框架通过将任务分解为多个相对简单的子任务,并由不同的代理协同完成,实现了更加高效的任务自动化。
解决的问题
该论文主要解决了图形用户界面任务自动化的挑战问题,包括数据集规模小、人工标注成本高、模型泛化能力差等问题。通过使用自我监督和大规模预训练等技术手段,GUI-Owl框架能够生成大量高质量的交互轨迹数据,从而降低了人工标注的成本;而Mobile-Agent-v3多代理协作框架则通过将任务分解为多个相对简单的子任务,并由不同的代理协同完成,实现了更加高效的任务自动化。这些技术手段的应用使得GUI-Owl框架能够在真实环境中实现更加可靠、稳定的自动化任务处理。
论文实验
本文主要介绍了基于视觉语言模型的 GUI 自动化系统 GUI-Owl 的性能评估和优化方法。文章中包含了四个关键维度的评估:地面能力、全面 GUI 理解、端到端代理能力和多代理能力的比较。在每个维度下,都进行了详细的实验设计和结果分析。
在地面能力方面,作者使用了两个基准数据集(ScreenSpot 和 OSWorld-G)来评估 GUI-Owl 在定位 GUI 元素方面的表现,并与其他模型进行了比较。结果显示,GUI-Owl 在这两个基准上均取得了最好的成绩,证明其具有较强的地面能力。
在全面 GUI 理解方面,作者使用了两个基准数据集(MMbench-GUI L2 和 Mobile Control)来评估 GUI-Owl 对于屏幕状态的理解和单步决策的能力,并与其他模型进行了比较。结果显示,GUI-Owl 在这两个基准上均取得了较好的成绩,证明其能够准确理解屏幕状态并作出正确的决策。
在端到端代理能力方面,作者使用了两个基准数据集(AndroidWorld 和 OSWorld)来评估 GUI-Owl 在复杂任务中的表现,并与其他模型进行了比较。结果显示,GUI-Owl 在这两个基准上均取得了较好的成绩,证明其能够在真实环境中完成复杂的 GUI 任务。
在多代理能力方面,作者将 GUI-Owl 集成到了两个不同的框架中(Mobile-Agent-E 和 Agent-S2),并与多个其他模型进行了比较。结果显示,GUI-Owl 在这两个框架中均取得了较高的成功率,证明其具有良好的多代理适应能力。
此外,文章还介绍了 GUI-Owl 的训练数据生成管道以及优化方法,包括自演化轨迹数据生产、高质量查询生成、轨迹正确性判断模块等。这些方法可以提高 GUI-Owl 的性能和效率,使其成为一个更加强大和可靠的 GUI 自动化系统。
论文总结
文章优点
本文提出了一种全新的GUI自动化模型GUI-Owl,该模型将感知、接地、推理、规划和行动执行整合在一个可扩展框架中。
GUI-Owl使用Qwen2.5-VL进行训练,并在大规模、多样化的GUI交互数据上进行了广泛的后处理,取得了在各种具有挑战性的基准测试中的最先进的性能表现。
通过合成推理数据和可扩展强化学习框架,GUI-Owl能够实现灵活的决策制定,从单个自主执行者到协作多代理角色协调。
方法创新
点
GUI-Owl是一种端到端的多模态代理模型,它将感知、接地、推理、规划和行动执行整合在一个可扩展框架中。
该模型使用了Qwen2.5-VL进行训练,并在大规模、多样化的GUI交互数据上进行了广泛的后处理,使其能够在各种具有挑战性的基准测试中取得最先进的性能表现。
通过合成推理数据和可扩展强化学习框架,GUI-Owl能够实现灵活的决策制定,从单个自主执行者到协作多代理角色协调。
未来展望
GUI-Owl可以应用于各种GUI自动化任务,包括文本编辑、文件管理、图像处理等。
未来的研究方向可能包括进一步提高GUI-Owl的性能和效率,以及将其与其他技术结合使用,以实现更复杂的任务。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
用手
也能
手机
代理
协作
相关帖子
Microsoft 代理框架简介(预览版):让每个开发人员都能轻松使用 AI 代理
[源码系列:手写Spring] AOP第二节:JDK动态代理 - 当AOP遇见动态代理的浪漫邂逅
从零跑起 RokidDemo:开发小白也能搞定的入门实践
雷电模拟器,全新云手机模拟器手机远程控制
AI 编程协作,我的一点邪修方法,希望可以帮助到你
10.结构型 - 代理模式 (Proxy Pattern)
网贷p2p借贷源码手机版网贷系统源码
php小说采集源码下载|手机小说源码带5条采集规则
AI手机之深入浅出ADAGRPO三大核心策略
AI手机的“简单替换陷阱”与Hadoop、Cloudera CDP 7大数据底座的关系探析
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
Microsoft 代理框架简介(预览版):让每个开发人员都能轻松使用 AI 代理
3
1000
章绮云
2025-10-20
业界
[源码系列:手写Spring] AOP第二节:JDK动态代理 - 当AOP遇见动态代理的浪漫邂逅
4
246
方方仪
2025-11-27
业界
从零跑起 RokidDemo:开发小白也能搞定的入门实践
1
68
国语诗
2025-11-28
软件
雷电模拟器,全新云手机模拟器手机远程控制
1
47
新程序
2025-12-02
业界
AI 编程协作,我的一点邪修方法,希望可以帮助到你
0
213
嗅叽
2025-12-03
安全
10.结构型 - 代理模式 (Proxy Pattern)
3
460
计海龄
2025-12-03
程序
网贷p2p借贷源码手机版网贷系统源码
1
46
新程序
2025-12-04
程序
php小说采集源码下载|手机小说源码带5条采集规则
3
51
新程序
2025-12-04
科技
AI手机之深入浅出ADAGRPO三大核心策略
1
25
酒跚骼
2025-12-14
业界
AI手机的“简单替换陷阱”与Hadoop、Cloudera CDP 7大数据底座的关系探析
1
560
诞楮
2025-12-16
回复
(5)
邹语彤
2025-11-27 01:10:07
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
新版吗?好像是停更了吧。
许娴广
2025-12-8 11:37:03
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
感谢分享,学习下。
稞冀
7 天前
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
这个好,看起来很实用
辖瑁地
4 天前
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
感谢分享,学习下。
寥唏
2 小时前
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
分享、互助 让互联网精神温暖你我
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
签约作者
程序园优秀签约作者
发帖
空娅芬
2 小时前
关注
0
粉丝关注
14
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994892
kk14977
6845357
4
xiangqian
638210
5
韶又彤
9997
6
宋子
9981
7
闰咄阅
9993
8
刎唇
9993
9
俞瑛瑶
9998
10
蓬森莉
9950
查看更多
今日好文热榜
395
SW 随笔 001 — InlineArray 带你飞(Since
690
当遇见 CatchAdmin V5-模块化设计重新定义
491
【有手就行】SWIFT:花20分钟把大模型的名
560
论文速读记录 | 2025.12(2)
374
浮点数的本质:为什么计算机无法精确表示0.
727
Flink源码阅读:如何生成JobGraph
929
Python 潮流周刊#132:30 年 Python 自由职
482
大模型榜单周报(2025/12/20)
157
【节点】[LinearToGammaSpaceExact节点]原
790
Aspire 与 Azure Functions 深度集成:架构
1006
阿里Z-Image图像生成模型容器部署
311
痞子衡嵌入式:16MB以上NOR Flash地址模式
669
最新AI换脸软件,全面升级可直播,Mirage下
452
热点 Key 与大 Key 治理——识别、拆分、预
646
Media Extended
331
vlookup的终结者splookup,9个案例讲透查询
873
ROS2之Launch介绍
895
精选 8 个 .NET 开发实用的类库,效率提升
111
精选 8 个 .NET 开发实用的类库,效率提升
601
精选 8 个 .NET 开发实用的类库,效率提升