Alibaba PageAgent 开源项目解析:把网页界面变成可被自然语言控制的 GUI Agent
摘要
PageAgent 是 Alibaba 开源的 TypeScript 项目,主打在网页内部通过 JavaScript 操控界面,不依赖浏览器扩展、Python 或无头浏览器。它适合产品内 AI Copilot、表单自动填写、可访问性和 MCP 场景。
如果说 browser-use 这类项目代表“让 Agent 控制浏览器”,Alibaba 开源的 PageAgent 则选择了另一个方向:让 Agent 直接生活在网页内部。这个 TypeScript 项目的定位是 JavaScript in-page GUI agent,也就是通过页面内脚本,让用户用自然语言控制网页界面。
截至本次整理时,PageAgent 在 GitHub 上已有 18582 个 star、1598 个 fork,采用 MIT License,主要语言为 TypeScript,仓库最近一次 push 时间为 2026 年 6 月 16 日。它的热度并不只来自概念新鲜,更来自一个很实际的问题:很多 SaaS 产品想接入 AI Copilot,但并不希望依赖浏览器扩展、无头浏览器或复杂的外部自动化环境。

PageAgent 项目横幅。图片来源:GitHub / Alibaba
PageAgent 的核心思路:在页面内完成 GUI 操作
PageAgent 的 README 将其描述为“生活在网页中的 GUI Agent”。它强调不需要浏览器扩展、不需要 Python、不需要 headless browser,只要在网页中接入 JavaScript,就可以让 Agent 理解并操作当前页面。这对产品团队很有吸引力,因为它更接近前端 SDK,而不是一套外部自动化平台。
它的另一个关键点是基于文本化 DOM 操作,而不是依赖截图和多模态模型。传统 GUI Agent 常见做法是截屏、识别按钮位置、再模拟点击。PageAgent 更倾向于读取页面结构和 DOM 信息,把界面转换成模型可理解的文本上下文,再执行点击、输入、选择等操作。这样做的好处是成本低、速度快、权限边界更清晰,也更容易嵌入现有 Web 应用。
适合哪些场景
PageAgent 官方列出的场景包括 SaaS AI Copilot、智能表单填写、可访问性增强、多页面 Agent 和 MCP。放到实际产品里,可以想象几类典型用法:
- 在后台管理系统中输入“帮我筛选本周新增客户并导出表格”,Agent 自动点击筛选条件、选择时间范围并触发导出。
- 在复杂表单中输入需求描述,Agent 自动填写字段、选择下拉项并提醒缺失信息。
- 在企业内部工具中作为辅助入口,帮助不熟悉系统的新员工完成跨页面操作。
- 通过 MCP Server beta,让外部 AI 客户端控制已接入 PageAgent 的网页。
这些场景都有一个共同点:界面本身已经存在,但用户操作路径较长。PageAgent 想做的是把“学会使用界面”的成本转移给 Agent。
接入门槛相对低
PageAgent 提供了 CDN 快速接入方式。全球 CDN 示例为:
<script src="https://cdn.jsdelivr.net/npm/page-agent@1.10.0/dist/iife/page-agent.demo.js"></script> 中国镜像示例为:
<script src="https://registry.npmmirror.com/page-agent/1.10.0/files/dist/iife/page-agent.demo.js"></script> 如果使用 npm,也可以安装 page-agent,然后创建 PageAgent 实例,配置模型、baseURL、apiKey 和语言,再调用 agent.execute('Click the login button') 这类自然语言指令。官方也提醒,demo CDN 使用的是免费测试 LLM API,只适合技术评估,不应直接用于生产。
与浏览器自动化项目的区别
PageAgent 并不是要替代 Playwright、Selenium 或 browser-use。它更像是面向产品内嵌 Copilot 的前端 Agent SDK。Playwright 适合测试和自动化脚本,browser-use 适合让 AI 控制通用浏览器,PageAgent 则更适合产品开发者把自然语言操作能力嵌进自己的页面。
这种差异决定了它的优势和限制。优势是接入轻、交互上下文明确、用户授权链路更容易设计;限制是它主要服务于被接入的网页,跨站点、跨浏览器全局任务仍需要扩展或外部控制层配合。
开源项目成熟度观察
从仓库信息看,PageAgent 已经具备较高关注度,但仍应按开源项目的常规标准评估:API 是否稳定,DOM 解析在复杂组件库中是否可靠,权限确认是否足够细,错误恢复是否可控,是否适合多语言和动态页面。对于生产级 SaaS Copilot,最重要的不是一次演示成功,而是长时间在真实用户数据、复杂表单和异常状态下保持可控。
DGNewLive 观察
PageAgent 代表了一类更务实的 Agent 产品路线:不追求让 AI 接管整个电脑,而是先让它可靠操作一个网页应用。对企业软件来说,这可能比宏大的通用智能体更快落地。未来如果 MCP、浏览器扩展和页面内 SDK 形成组合,网页应用很可能会从“给人点击的界面”,逐渐变成“人和 Agent 都能操作的工作台”。
同类栏目导航
