登录
/
注册
首页
论坛
其它
首页
科技
业界
安全
程序
广播
Follow
关于
导读
排行榜
资讯
发帖说明
登录
/
注册
账号
自动登录
找回密码
密码
登录
立即注册
搜索
搜索
关闭
CSDN热搜
程序园
精品问答
技术交流
资源下载
本版
帖子
用户
软件
问答
教程
代码
写记录
写博客
小组
VIP申请
VIP网盘
网盘
联系我们
发帖说明
道具
勋章
任务
淘帖
动态
分享
留言板
导读
设置
我的收藏
退出
腾讯QQ
微信登录
1
2
/ 2 页
下一页
返回列表
首页
›
业界区
›
业界
›
不用手也能玩手机?多代理协作框架让 APP 自动执行任务 ...
不用手也能玩手机?多代理协作框架让 APP 自动执行任务
[ 复制链接 ]
空娅芬
2025-10-1 18:53:54
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
原文:https://mp.weixin.qq.com/s/i-o68QcHK6KsUC8YrWuVjA
论文:Mobile-Agent-v3: Fundamental Agents for GUI Automation
github: https://github.com/X-PLUG/MobileAgent
全文摘要
本文介绍了一种名为Mobile-Agent-v3的通用GUI代理框架,该框架基于开源模型GUI-Owl,并在其基础上进行了进一步的性能提升。GUI-Owl是一种基础GUI代理模型,可以在桌面和移动环境中实现地面上下文理解、问答、规划、决策和一般性程序知识。此外,该模型还具有大规模环境基础设施、多样化基础代理能力构建和可扩展环境RL等关键创新点。实验结果表明,Mobile-Agent-v3在AndroidWorld和OSWorld基准测试中分别取得了73.3和37.7的成绩,达到了新的GUI代理框架中的最佳水平。
论文方法
方法描述
该论文提出了一种名为“GUI-Owl”的多模态强化学习框架,用于实现复杂图形用户界面(GUI)任务的自动化。该框架采用了多种数据合成策略来增强模型的推理能力,并引入了迭代在线拒绝采样、自适应奖励函数等技术来提高模型的性能。此外,该论文还介绍了Mobile-Agent-v3多代理协作框架,通过四个专门的代理来实现任务规划、子任务执行和反思推理等功能。
方法改进
与传统的基于手动标注的方法相比,GUI-Owl框架利用自我监督的方式生成大量的高质量交互轨迹数据,从而减少了人工标注的需求。同时,该框架采用了大规模预训练、迭代调优和强化学习等多种技术手段,进一步提高了模型在实际应用中的稳定性和可靠性。此外,Mobile-Agent-v3多代理协作框架通过将任务分解为多个相对简单的子任务,并由不同的代理协同完成,实现了更加高效的任务自动化。
解决的问题
该论文主要解决了图形用户界面任务自动化的挑战问题,包括数据集规模小、人工标注成本高、模型泛化能力差等问题。通过使用自我监督和大规模预训练等技术手段,GUI-Owl框架能够生成大量高质量的交互轨迹数据,从而降低了人工标注的成本;而Mobile-Agent-v3多代理协作框架则通过将任务分解为多个相对简单的子任务,并由不同的代理协同完成,实现了更加高效的任务自动化。这些技术手段的应用使得GUI-Owl框架能够在真实环境中实现更加可靠、稳定的自动化任务处理。
论文实验
本文主要介绍了基于视觉语言模型的 GUI 自动化系统 GUI-Owl 的性能评估和优化方法。文章中包含了四个关键维度的评估:地面能力、全面 GUI 理解、端到端代理能力和多代理能力的比较。在每个维度下,都进行了详细的实验设计和结果分析。
在地面能力方面,作者使用了两个基准数据集(ScreenSpot 和 OSWorld-G)来评估 GUI-Owl 在定位 GUI 元素方面的表现,并与其他模型进行了比较。结果显示,GUI-Owl 在这两个基准上均取得了最好的成绩,证明其具有较强的地面能力。
在全面 GUI 理解方面,作者使用了两个基准数据集(MMbench-GUI L2 和 Mobile Control)来评估 GUI-Owl 对于屏幕状态的理解和单步决策的能力,并与其他模型进行了比较。结果显示,GUI-Owl 在这两个基准上均取得了较好的成绩,证明其能够准确理解屏幕状态并作出正确的决策。
在端到端代理能力方面,作者使用了两个基准数据集(AndroidWorld 和 OSWorld)来评估 GUI-Owl 在复杂任务中的表现,并与其他模型进行了比较。结果显示,GUI-Owl 在这两个基准上均取得了较好的成绩,证明其能够在真实环境中完成复杂的 GUI 任务。
在多代理能力方面,作者将 GUI-Owl 集成到了两个不同的框架中(Mobile-Agent-E 和 Agent-S2),并与多个其他模型进行了比较。结果显示,GUI-Owl 在这两个框架中均取得了较高的成功率,证明其具有良好的多代理适应能力。
此外,文章还介绍了 GUI-Owl 的训练数据生成管道以及优化方法,包括自演化轨迹数据生产、高质量查询生成、轨迹正确性判断模块等。这些方法可以提高 GUI-Owl 的性能和效率,使其成为一个更加强大和可靠的 GUI 自动化系统。
论文总结
文章优点
本文提出了一种全新的GUI自动化模型GUI-Owl,该模型将感知、接地、推理、规划和行动执行整合在一个可扩展框架中。
GUI-Owl使用Qwen2.5-VL进行训练,并在大规模、多样化的GUI交互数据上进行了广泛的后处理,取得了在各种具有挑战性的基准测试中的最先进的性能表现。
通过合成推理数据和可扩展强化学习框架,GUI-Owl能够实现灵活的决策制定,从单个自主执行者到协作多代理角色协调。
方法创新
点
GUI-Owl是一种端到端的多模态代理模型,它将感知、接地、推理、规划和行动执行整合在一个可扩展框架中。
该模型使用了Qwen2.5-VL进行训练,并在大规模、多样化的GUI交互数据上进行了广泛的后处理,使其能够在各种具有挑战性的基准测试中取得最先进的性能表现。
通过合成推理数据和可扩展强化学习框架,GUI-Owl能够实现灵活的决策制定,从单个自主执行者到协作多代理角色协调。
未来展望
GUI-Owl可以应用于各种GUI自动化任务,包括文本编辑、文件管理、图像处理等。
未来的研究方向可能包括进一步提高GUI-Owl的性能和效率,以及将其与其他技术结合使用,以实现更复杂的任务。
来源:程序园用户自行投稿发布,如果侵权,请联系站长删除
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!
用手
也能
手机
代理
协作
相关帖子
契约优先与协作效率——消费者驱动契约思维带来的团队成本下降
从对话到协作,Skills 如何改变我们与 AI 共事的方式
RPC 代理远程注入dll获得shell
16G显卡也能调大模型?先搞懂显存消耗的3大核心原因
线程如何停止?线程之间如何协作?线程之间的异常如何处理?
IDEA 终于也能爽用 Claude Code 了!!
海外仓代理仓如何完善管理效率?WMS管理系统全流程运营指南!
AMD显卡也能畅玩AI画图!ROCm+ComfyUI部署全指南
wsl中遵循win的代理设置
为什么在代理服务器上测试, http2 的转发性能比 http 1 更低?
回复
使用道具
举报
提升卡
置顶卡
沉默卡
喧嚣卡
变色卡
千斤顶
照妖镜
相关推荐
业界
契约优先与协作效率——消费者驱动契约思维带来的团队成本下降
16
763
映各
2026-01-15
业界
从对话到协作,Skills 如何改变我们与 AI 共事的方式
17
1021
髭赌
2026-01-26
安全
RPC 代理远程注入dll获得shell
12
525
命煦砌
2026-01-26
业界
16G显卡也能调大模型?先搞懂显存消耗的3大核心原因
12
39
讹过畔
2026-01-27
业界
线程如何停止?线程之间如何协作?线程之间的异常如何处理?
9
252
辈霖利
2026-02-02
安全
IDEA 终于也能爽用 Claude Code 了!!
14
498
司马黛
2026-02-02
安全
海外仓代理仓如何完善管理效率?WMS管理系统全流程运营指南!
10
787
茅断卉
2026-02-06
业界
AMD显卡也能畅玩AI画图!ROCm+ComfyUI部署全指南
10
969
汤昕昕
2026-02-07
安全
wsl中遵循win的代理设置
0
621
恶凝毛
2026-02-15
业界
为什么在代理服务器上测试, http2 的转发性能比 http 1 更低?
0
369
釉她
2026-02-15
回复
(28)
邹语彤
2025-11-27 01:10:07
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
新版吗?好像是停更了吧。
许娴广
2025-12-8 11:37:03
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
感谢分享,学习下。
稞冀
2025-12-14 09:02:33
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
这个好,看起来很实用
辖瑁地
2025-12-17 01:55:53
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
感谢分享,学习下。
寥唏
2025-12-21 08:21:36
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
分享、互助 让互联网精神温暖你我
狭踝仇
2026-1-1 05:55:08
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
感谢发布原创作品,程序园因你更精彩
梁宁
2026-1-12 10:43:21
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
东西不错很实用谢谢分享
呼延冰枫
2026-1-14 10:56:03
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
懂技术并乐意极积无私分享的人越来越少。珍惜
许娴广
2026-1-18 05:38:52
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
感谢分享
喳谍
2026-1-18 10:32:21
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
懂技术并乐意极积无私分享的人越来越少。珍惜
喳谍
2026-1-18 14:15:40
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
yyds。多谢分享
迫蔺
2026-1-19 05:13:45
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
感谢发布原创作品,程序园因你更精彩
辉伫
2026-1-21 13:54:48
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
用心讨论,共获提升!
党新苗
2026-1-22 04:30:42
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
懂技术并乐意极积无私分享的人越来越少。珍惜
佟棠华
2026-1-24 07:16:24
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
谢谢分享,试用一下
茅断卉
2026-1-25 08:52:41
回复
使用道具
举报
照妖镜
猛犸象科技工作室:
网站开发,备案域名,渗透,服务器出租,DDOS/CC攻击,TG加粉引流
感谢分享
郦珠雨
2026-1-29 02:51:19
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
这个好,看起来很实用
殷罗绮
2026-1-29 06:59:04
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
用心讨论,共获提升!
缢闸
2026-2-1 00:25:07
回复
使用道具
举报
照妖镜
程序园永久vip申请,500美金$,无限下载程序园所有程序/软件/数据/等
yyds。多谢分享
下一页 »
1
2
/ 2 页
下一页
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
回复
本版积分规则
回帖并转播
回帖后跳转到最后一页
浏览过的版块
安全
科技
程序
软件
签约作者
程序园优秀签约作者
发帖
空娅芬
2026-2-1 00:25:07
关注
0
粉丝关注
16
主题发布
板块介绍填写区域,请于后台编辑
财富榜{圆}
3934307807
991124
anyue1937
9994892
kk14977
6845359
4
xiangqian
638210
5
宋子
9898
6
韶又彤
9918
7
闰咄阅
9993
8
刎唇
9995
9
蓬森莉
9883
10
遗憩
10006
查看更多
今日好文热榜
677
国内零门槛首个免费 开源 7×24小时帮
569
[拆解LangChain执行引擎]非常规Pending Wri
64
AI开发-python-milvus向量数据库(2-8 -mil
77
[LKD/Linux 内核] 关于对 current_thread_i
6
[LKD/Linux 内核] 关于对 current_thread_i
5
[LKD/Linux 内核] 关于对 current_thread_i
536
杂题选做(3)
4
9、PipedInputStream和PipedOutputStream的
753
凸优化数学基础笔记(五):极小值点的判定
856
【节点】[MainLightRealtimeShadow节点]原
11
【渗透测试】HTB靶场之WingData 全过程wp
381
2023年电赛国赛经历
534
从零开始学Flink:实时数仓与维表时态Join
987
Stanford-CS336-Lecture-01 学习理解
663
FastAPI实战:WebSocket长连接保持与心跳机
362
FPGA使用镜像加载技术来切换运行中的比特流
405
赋予 AI Agent “无限续航”:语义保护型上