阿里巴巴通义实验室推出的pc-agent框架,旨在解决复杂pc任务自动化难题。该框架能够跨越不同应用程序,完成从office到浏览器的各种复杂工作流。
PC-Agent并非简单的指令执行器,它能够理解并执行一系列复杂指令,例如:在记事本中读取文件信息并设置闹钟;在文件管理器中查找文件,并将信息添加到其他应用;搜索股票信息并将其记录到Excel表格;读取邮件信息并预订机票;以及编辑Word文档格式等。
现有方法如UFO和Agent-S在处理复杂PC任务时存在局限性,主要体现在对文本的精细感知和操作能力不足,以及忽略了子任务间的复杂依赖关系。PC-Agent通过以下两项关键技术创新来克服这些挑战:
1. 主动感知模块(APM): APM能够精细感知屏幕内容并进行操作。它结合了可访问性树(accessibility tree)和基于多模态大模型(MLLM)的意图理解模块,实现对可交互元素和文本信息的精准定位和操作。
2. 层次化多智能体协作: PC-Agent采用三层架构:指令层、子任务层和动作层。指令层由Manager智能体负责将复杂指令分解为子任务;子任务层由Progress智能体跟踪和管理子任务进度;动作层由Decision智能体负责决策和执行操作,Reflection智能体负责反馈和纠错。这种层次化结构能够有效处理子任务间的依赖关系,并实现精确的进度感知和错误反馈。
为了评估PC-Agent的性能,研究人员构建了一个名为PC-Eval的复杂指令集,包含25条涉及8个常用PC应用程序的指令。实验结果表明,PC-Agent在复杂任务上的表现显著优于现有方法,能够有效处理精细化操作和长程决策。
下图展示了PC-Agent执行部分任务的示例,包括搜索信息并编辑Excel表格、Reflection智能体发现并反馈无效操作,以及在Word文档中进行格式编辑等。
论文链接:https://www.php.cn/link/4148dbfefe2cef3f36b4866a1485e1ec
代码链接:https://www.php.cn/link/4148dbfefe2cef3f36b4866a1485e1ec
以上就是阿里 PC-Agent 重构人机交互,精准拆解跨应用指令,自动化办公更进一步的详细内容,更多请关注资源网之家其它相关文章!
发表评论:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。