通过爬取网页为知识库添加与管理网站知识-智能对话机器人-阿里云

本文从机器人空间维度介绍了网站知识的添加与绑定，以及对已获取网站知识的刷新、查看、删除和编辑操作。

重要

智能对话机器人暂不支持异步加载类型与前后端分离类型的网站内容爬取。机器人所爬取的网页需要无登录授权验证，即无需验证当前用户身份和授予用户系统访问权限即可访问。以填写的单个网站链接作为爬虫的起点，无论该页面上存在多少超链接，在处理过程中，仅会爬取该网页及同域名下的前30个超链接。如果爬取的网站未满足登录授权验证的要求，将导致爬取失败，此情况不计入爬取数量。
请您确保在法律法规允许的范围内使用本网页解析工具，遵守目标平台管理规范、保障权利人合法权益，您应对此独立承担责任。智能对话机器人作为工具提供方不对您的解析或下载行为承担任何责任。

功能概述

网站知识是指通过爬取特定网页下的文本内容而形成的知识，机器人具有快速获取网站知识的能力，为智能对话机器人添加有关网页链接后，系统将爬取网页内容以及同域名下的超链接中的网页内容，这些内容都将作为知识供给给机器人。

添加网站知识

说明

不同版本的业务空间可支持添加网站的数量有差别，如企业版支持最多可添加10个网站，有关具体版本对应可使用资源信息请参见资源限制和免费额度。

登录智能对话机器人管理控制台，进入具体机器人空间，选择知识库>网站知识进入网站知识管理界面。
单击添加网站，根据实际业务需求填写网站链接、URL过滤、Xpath、内容过滤，选择定时更新方式（体验版暂不支持设置定时更新）。
- 定时更新：定时更新爬取的网站知识，保证网站知识的时效性。支持选择不更新、每天自动更新、每周自动更新、每月自动更新。
- URL过滤：用于网页URL过滤，基于正则表达式进行过滤，支持设置多个过滤条件。添加后，只有与表达式匹配的网站链接才能进行网页解析，最多可添加10个过滤条件。例如目标解析网页为：http://www.xxx.com/abc/123/index.html，URL过滤可设为：
```
http://www.xxx.com/[a-z]*/[0-9]*/index.html
```
- Xpath：Xpath过滤用于获取网页内的外链，基于XPath规则，最多支持10个Xpath选取规则，默认支持网页内<a href...></a>外链。例如网页内容：<a style="test" onclick="query()",tagname="/abc/123/index.html">外部链接</a>，如果要爬取tagname属性的外链，该配置项可设为：//a/@tagname。
- 内容过滤：内容过滤用于精准获取网页内容，基于CSS选择器，最多可添加支持10个配置。默认获取body下所有元素的文本内容。例如要精确获取div标签下class为article的内容，<div class="article">网页内容</div>，该配置项设为：div.article。
单击下一步，进入网站解析设置界面。根据实际业务需求填写文档片段长度，设置层级解析模式。
- 文档片段长度：文档片段最大字数上限，当前支持单个文档片段字数最多为800字。
- 层级解析模式（规则解析）：通过选择文档标题规则或自定义文档标题规则来识别文档段落层级信息。
  说明
  网站知识的层级解析模式（规则解析）与文档知识的解析模式相同，具体解析规则与配置操作请参见文档解析规则。
单击确定，机器人开始获取网页内容。单击爬取测试可预览爬取结果。
原始网站名称可能存在不规范的情况，单击已获取网站名称下编辑图标可重新编辑网站名称。单击网站链接右侧删除、查看、重试，可删除所选网站知识、进入该链接及同域名下的超链接展示界面查看网站知识内容、重新爬取相关网站知识内容。已获取的网站知识是某一时间点下的网站内容，当后续网站内容发生变化时，业务上需要同步更新相关网站知识，则需要对已获取的网站知识进行刷新。

绑定网站知识

绑定网站知识是指在业务空间中已经添加了相关网站知识后，在机器人空间中绑定业务空间中已经添加过的网站知识。具体操作步骤如下：

登录智能对话机器人管理控制台，进入具体机器人空间，选择知识库>网站知识进入网站知识管理界面。
单击绑定已有网站，根据实际业务需求勾选需要绑定的网站。
单击确定，机器人获取相关网站的知识。