Alibaba PageAgent 开源项目解析：把网页界面变成可被自然语言控制的 GUI Agent

发布于：2026年6月16日栏目：开源发现

摘要

PageAgent 是 Alibaba 开源的 TypeScript 项目，主打在网页内部通过 JavaScript 操控界面，不依赖浏览器扩展、Python 或无头浏览器。它适合产品内 AI Copilot、表单自动填写、可访问性和 MCP 场景。

如果说 browser-use 这类项目代表“让 Agent 控制浏览器”，Alibaba 开源的 PageAgent 则选择了另一个方向：让 Agent 直接生活在网页内部。这个 TypeScript 项目的定位是 JavaScript in-page GUI agent，也就是通过页面内脚本，让用户用自然语言控制网页界面。

截至本次整理时，PageAgent 在 GitHub 上已有 18582 个 star、1598 个 fork，采用 MIT License，主要语言为 TypeScript，仓库最近一次 push 时间为 2026 年 6 月 16 日。它的热度并不只来自概念新鲜，更来自一个很实际的问题：很多 SaaS 产品想接入 AI Copilot，但并不希望依赖浏览器扩展、无头浏览器或复杂的外部自动化环境。

PageAgent 的核心思路：在页面内完成 GUI 操作

PageAgent 的 README 将其描述为“生活在网页中的 GUI Agent”。它强调不需要浏览器扩展、不需要 Python、不需要 headless browser，只要在网页中接入 JavaScript，就可以让 Agent 理解并操作当前页面。这对产品团队很有吸引力，因为它更接近前端 SDK，而不是一套外部自动化平台。

它的另一个关键点是基于文本化 DOM 操作，而不是依赖截图和多模态模型。传统 GUI Agent 常见做法是截屏、识别按钮位置、再模拟点击。PageAgent 更倾向于读取页面结构和 DOM 信息，把界面转换成模型可理解的文本上下文，再执行点击、输入、选择等操作。这样做的好处是成本低、速度快、权限边界更清晰，也更容易嵌入现有 Web 应用。

适合哪些场景

PageAgent 官方列出的场景包括 SaaS AI Copilot、智能表单填写、可访问性增强、多页面 Agent 和 MCP。放到实际产品里，可以想象几类典型用法：

在后台管理系统中输入“帮我筛选本周新增客户并导出表格”，Agent 自动点击筛选条件、选择时间范围并触发导出。
在复杂表单中输入需求描述，Agent 自动填写字段、选择下拉项并提醒缺失信息。
在企业内部工具中作为辅助入口，帮助不熟悉系统的新员工完成跨页面操作。
通过 MCP Server beta，让外部 AI 客户端控制已接入 PageAgent 的网页。

这些场景都有一个共同点：界面本身已经存在，但用户操作路径较长。PageAgent 想做的是把“学会使用界面”的成本转移给 Agent。

接入门槛相对低

PageAgent 提供了 CDN 快速接入方式。全球 CDN 示例为：

html

<script src="https://cdn.jsdelivr.net/npm/page-agent@1.10.0/dist/iife/page-agent.demo.js"></script>

中国镜像示例为：

html

<script src="https://registry.npmmirror.com/page-agent/1.10.0/files/dist/iife/page-agent.demo.js"></script>

如果使用 npm，也可以安装 page-agent，然后创建 PageAgent 实例，配置模型、baseURL、apiKey 和语言，再调用 agent.execute('Click the login button') 这类自然语言指令。官方也提醒，demo CDN 使用的是免费测试 LLM API，只适合技术评估，不应直接用于生产。

与浏览器自动化项目的区别

PageAgent 并不是要替代 Playwright、Selenium 或 browser-use。它更像是面向产品内嵌 Copilot 的前端 Agent SDK。Playwright 适合测试和自动化脚本，browser-use 适合让 AI 控制通用浏览器，PageAgent 则更适合产品开发者把自然语言操作能力嵌进自己的页面。

这种差异决定了它的优势和限制。优势是接入轻、交互上下文明确、用户授权链路更容易设计；限制是它主要服务于被接入的网页，跨站点、跨浏览器全局任务仍需要扩展或外部控制层配合。

开源项目成熟度观察

从仓库信息看，PageAgent 已经具备较高关注度，但仍应按开源项目的常规标准评估：API 是否稳定，DOM 解析在复杂组件库中是否可靠，权限确认是否足够细，错误恢复是否可控，是否适合多语言和动态页面。对于生产级 SaaS Copilot，最重要的不是一次演示成功，而是长时间在真实用户数据、复杂表单和异常状态下保持可控。

DGNewLive 观察

PageAgent 代表了一类更务实的 Agent 产品路线：不追求让 AI 接管整个电脑，而是先让它可靠操作一个网页应用。对企业软件来说，这可能比宏大的通用智能体更快落地。未来如果 MCP、浏览器扩展和页面内 SDK 形成组合，网页应用很可能会从“给人点击的界面”，逐渐变成“人和 Agent 都能操作的工作台”。

Alibaba PageAgent GitHub 开源项目 MCP AI Agent TypeScript

开源发现