浏览器智能体是在智能体模式下使用浏览器完成任务的能力扩展。它可以在受控环境中打开网页、浏览内容、点击按钮、填写表单、滚动页面,并在必要时截图反馈页面状态,从而帮助你完成「需要实际访问网页」的自动化任务。
只需在智能会话中用自然语言描述你的需求(例如"去官网查一下最新价格并总结差异"),智能体会在需要时自动调度 Browser 智能体,无需你手动切换模式或编写脚本。
核心能力
浏览器智能体主要具备以下能力:
-
打开与导航网页
-
阅读与提取信息
-
读取当前页面的可见文本内容,如标题、段落、列表和表格等。
-
从页面中提取关键信息,并用自然语言为你总结或对比。
-
根据你的指令在页面中"查找"相关信息,例如"在这个页面上找一下价格相关的内容"。
-
-
交互与操作页面
-
点击按钮、链接、切换标签页或展开/收起折叠内容。
-
在输入框、搜索框等表单元素中输入文字,并提交表单。
-
通过滚动页面浏览更多内容,避免遗漏关键信息。
-
-
可视反馈与状态感知
-
在执行复杂步骤时,按需截图当前页面状态,用于后续判断与说明。
-
感知页面是否加载完成、表单是否提交成功、是否跳转到了新的页面等,以便决定下一步操作。
-
适用场景示例
你可以在以下场景中考虑使用浏览器智能体:
-
信息检索与对比
-
访问产品官网、文档站点或博客,提取关键信息并生成总结。
-
对多个页面或多个方案进行对比,例如价格、功能或配置差异。
-
-
在线操作与流程演练
-
演练一个「基于网页」的操作流程,例如注册账号、提交工单(在权限允许和风险可控的前提下)。
-
帮助你梳理某个 Web 后台系统的典型使用步骤,并输出操作说明草稿。
-
-
辅助开发与测试
-
打开线上文档或 API 参考,提炼出与你当前代码相关的部分。
-
浏览 Web 应用的界面,帮助你检查页面结构、文案或交互逻辑,并给出优化建议。
-
建议在任务描述中说明目标和约束(例如"只阅读不提交任何表单""只访问公开文档页"),帮助智能体更安全、稳定地完成任务。
浏览器类型
Browser Agent 支持两种浏览器类型,你可以根据需要切换:
-
内置浏览器:IDE 内置的轻量级浏览器面板,无需额外配置,适合快速预览和简单页面交互。
-
Chrome:使用本地 Chrome 浏览器执行,支持更复杂的 Web 应用和需要特定浏览器特性或扩展的页面。
你可以在 Browser Agent 设置中切换浏览器类型。
如何在智能体模式中使用
浏览器智能体已内置于智能体模式中,无需单独配置。你可以通过两种方式调用它:
-
自动调用:智能体模式会根据你的请求智能判断何时需要浏览器智能体。
-
显式调用:使用
/browser命令显式请求浏览器智能体。
详细使用步骤如下:
1. 进入智能体模式
打开Qoder CN的聊天面板并切换到智能体模式。
2. 描述你的任务
选择使用 /browser 显式调用,或直接用自然语言描述你的需求,例如:
-
/browser 打开 https://example.com 并总结主要功能 -
/browser 查看 2025 年的定价计划并整理成表格 -
/browser 分析这个组件库中的主题自定义选项
3. 查看结果
浏览器智能体将会:
-
执行必要的网页交互
-
提供所采取操作的详细说明
-
分享屏幕截图以供视觉验证
-
以结构化格式呈现提取的数据
使用建议与最佳实践
-
明确目标与边界
-
尽量用一句话说明"要达成的结果",而不是只描述某一步操作。
-
对安全或权限敏感的操作,明确说明"不执行提交/支付/删除等操作"。
-
-
提供稳定的入口链接
-
优先提供具体页面 URL,而不是模糊的搜索词,这样可以减少跳转干扰。
-
如果需要跨多个页面操作,可以在提示中列出关键页面或路径。
-
-
适度拆分任务
-
对于非常长的流程(例如复杂配置向导),可以拆分成多个小目标,逐步执行并确认中间结果。
-
在每一阶段结束后,根据 Browser 智能体返回的结果,适当调整下一步的指令。
-
安全与限制
在使用 Browser 智能体时,需要注意以下事项:
-
权限与隐私
-
避免让 Browser 智能体在网页中输入或暴露任何敏感信息(如密码、访问令牌、个人隐私数据等)。
-
对涉及账号登录、支付或写入数据的操作,请优先采用手动方式完成,再让智能体进行只读验证或说明。
-
-
页面兼容性与稳定性
-
某些高度依赖前端框架或复杂交互的站点,可能存在加载缓慢或元素难以识别的情况。
-
页面结构或文案如果频繁变更,可能导致部分步骤执行失败,此时你可以补充更明确的描述或换一个更稳定的入口页面。
-
-
结果可信度
-
Browser 智能体的回答基于实时访问到的网页内容,但网页本身可能并非权威信息,建议在关键决策前自行复核。
-
对于需要法律、合规或高风险业务判断的场景,不应仅依赖 Browser 智能体的自动化结果。
-
通过 Browser 智能体,你可以让Qoder CN不仅"读懂你的代码",还可以"读懂你正在访问的网页",在同一对话中完成代码编辑与网页操作协同,大幅减少在浏览器和 IDE 之间来回切换的成本。