xiantong 文档

浏览器

控制内置 Chromium 浏览器以自动执行 Web 任务、提取数据并与任何网站交互

控制一个内置的 Chromium 浏览器,让你的 Agent 可以直接操控网页。导航页面、填写表单、点击按钮、提取数据、运行 JavaScript、检查网络流量——所有操作都在会话中完成,无需离开对话界面。

何时使用浏览器#

适合使用浏览器的场景#

  • 一次性任务,不需要可重用的集成
  • 只有 UI 的工作流,且没有现成 API
  • 源设置受阻时,需要立即得到结果
  • 抓取或提取网页上的数据
  • 填写表单或完成多步网页工作流

更适合使用其他来源的场景#

  • 将定期运行的可重复任务
  • 面向团队的自动化和报告
  • 需要稳定、编程式访问的工作流
  • 服务已有 API 或 MCP 服务器

核心工作流程#

每次浏览器交互都遵循相同的模式:

打开浏览器

Agent 在后台打开一个浏览器窗口(或重用现有窗口)。

导航到页面

加载 URL——Agent 可以导航到任何网站,包括你已经登录的网站。

检查页面

Agent 会拍摄页面的快照——一个结构化的可访问性树,它识别每个交互元素(按钮、链接、输入框),并赋予引用 ID,如 @e1@e2 等。

交互操作

Agent 可以使用这些引用点击按钮、填写文本输入、选择下拉选项、滚动以及发送键盘快捷键。

提取或验证

读取结果——使用 JavaScript 提取 DOM 数据、截取截图进行视觉验证或检查网络流量了解发生了什么。

你可以做什么#

导航与点击#

打开 URL,点击按钮和链接,前进/后退浏览历史。

填写表单#

在文本字段中输入,选择下拉选项,提交表单。

提取数据#

运行 JavaScript 查询 DOM,从任意页面拉取结构化数据。

截图#

捕捉整页或特定元素/区域的截图。

检查网络#

查看页面发出的 API 请求——调试失败或发现内部端点。

键盘输入#

发送按键和快捷键(Enter、Escape、Cmd+K 等)。

权限#

浏览器工具在所有权限模式下都可用,包括探索模式。Agent 可以浏览、读取并提取数据,无需切换到更高级权限。

Agent 在每个会话的首次浏览器交互前都会阅读浏览器工具指南。这能确保其正确使用工具并遵循最佳实践。如果首次浏览器操作出现短暂停顿,就是这个原因。

窗口生命周期#

浏览器窗口在会话内的交互过程中会持续保留。当 Agent 完成任务时:

操作描述适用场景
关闭窗口销毁,所有状态丢失任务完全结束,不再需要浏览器
释放Agent 覆盖层关闭,窗口仍可见Agent 完成,你可能想继续浏览
隐藏窗口隐藏但保留在内存中暂时结束,可能稍后还需浏览器

通过操作系统关闭按钮关闭浏览器窗口会隐藏它,而不会销毁——Agent 可以立即重新打开。