浏览器 · xiantong 文档

浏览器

控制内置 Chromium 浏览器以自动执行 Web 任务、提取数据并与任何网站交互

控制一个内置的 Chromium 浏览器，让你的 Agent 可以直接操控网页。导航页面、填写表单、点击按钮、提取数据、运行 JavaScript、检查网络流量——所有操作都在会话中完成，无需离开对话界面。

何时使用浏览器#

每次浏览器交互都遵循相同的模式：

打开浏览器

Agent 在后台打开一个浏览器窗口（或重用现有窗口）。

导航到页面

加载 URL——Agent 可以导航到任何网站，包括你已经登录的网站。

检查页面

Agent 会拍摄页面的快照——一个结构化的可访问性树，它识别每个交互元素（按钮、链接、输入框），并赋予引用 ID，如 @e1、@e2 等。

交互操作

Agent 可以使用这些引用点击按钮、填写文本输入、选择下拉选项、滚动以及发送键盘快捷键。

提取或验证

读取结果——使用 JavaScript 提取 DOM 数据、截取截图进行视觉验证或检查网络流量了解发生了什么。

打开 URL，点击按钮和链接，前进/后退浏览历史。

在文本字段中输入，选择下拉选项，提交表单。

运行 JavaScript 查询 DOM，从任意页面拉取结构化数据。

捕捉整页或特定元素/区域的截图。

查看页面发出的 API 请求——调试失败或发现内部端点。

发送按键和快捷键（Enter、Escape、Cmd+K 等）。

浏览器工具在所有权限模式下都可用，包括探索模式。Agent 可以浏览、读取并提取数据，无需切换到更高级权限。

Agent 在每个会话的首次浏览器交互前都会阅读浏览器工具指南。这能确保其正确使用工具并遵循最佳实践。如果首次浏览器操作出现短暂停顿，就是这个原因。

浏览器窗口在会话内的交互过程中会持续保留。当 Agent 完成任务时：

通过操作系统关闭按钮关闭浏览器窗口会隐藏它，而不会销毁——Agent 可以立即重新打开。