浏览器
控制内置 Chromium 浏览器以自动执行 Web 任务、提取数据并与任何网站交互
控制一个内置的 Chromium 浏览器,让你的 Agent 可以直接操控网页。导航页面、填写表单、点击按钮、提取数据、运行 JavaScript、检查网络流量——所有操作都在会话中完成,无需离开对话界面。
何时使用浏览器#
适合使用浏览器的场景#
- 一次性任务,不需要可重用的集成
- 只有 UI 的工作流,且没有现成 API
- 源设置受阻时,需要立即得到结果
- 抓取或提取网页上的数据
- 填写表单或完成多步网页工作流
更适合使用其他来源的场景#
- 将定期运行的可重复任务
- 面向团队的自动化和报告
- 需要稳定、编程式访问的工作流
- 服务已有 API 或 MCP 服务器
核心工作流程#
每次浏览器交互都遵循相同的模式:
打开浏览器
Agent 在后台打开一个浏览器窗口(或重用现有窗口)。
导航到页面
加载 URL——Agent 可以导航到任何网站,包括你已经登录的网站。
检查页面
Agent 会拍摄页面的快照——一个结构化的可访问性树,它识别每个交互元素(按钮、链接、输入框),并赋予引用 ID,如 @e1、@e2 等。
交互操作
Agent 可以使用这些引用点击按钮、填写文本输入、选择下拉选项、滚动以及发送键盘快捷键。
提取或验证
读取结果——使用 JavaScript 提取 DOM 数据、截取截图进行视觉验证或检查网络流量了解发生了什么。
你可以做什么#
导航与点击#
打开 URL,点击按钮和链接,前进/后退浏览历史。
填写表单#
在文本字段中输入,选择下拉选项,提交表单。
提取数据#
运行 JavaScript 查询 DOM,从任意页面拉取结构化数据。
截图#
捕捉整页或特定元素/区域的截图。
检查网络#
查看页面发出的 API 请求——调试失败或发现内部端点。
键盘输入#
发送按键和快捷键(Enter、Escape、Cmd+K 等)。
权限#
浏览器工具在所有权限模式下都可用,包括探索模式。Agent 可以浏览、读取并提取数据,无需切换到更高级权限。
Agent 在每个会话的首次浏览器交互前都会阅读浏览器工具指南。这能确保其正确使用工具并遵循最佳实践。如果首次浏览器操作出现短暂停顿,就是这个原因。
窗口生命周期#
浏览器窗口在会话内的交互过程中会持续保留。当 Agent 完成任务时:
| 操作 | 描述 | 适用场景 |
|---|---|---|
| 关闭 | 窗口销毁,所有状态丢失 | 任务完全结束,不再需要浏览器 |
| 释放 | Agent 覆盖层关闭,窗口仍可见 | Agent 完成,你可能想继续浏览 |
| 隐藏 | 窗口隐藏但保留在内存中 | 暂时结束,可能稍后还需浏览器 |
通过操作系统关闭按钮关闭浏览器窗口会隐藏它,而不会销毁——Agent 可以立即重新打开。