网站知识

概念与作用

  • 概念:网站知识是指通过爬取特定网页下的文本内容而形成的知识。

  • 作用:填入有关网页链接后,系统将爬取网页内容以及同域名下的超链接,机器人具有快速获取网站知识的能力。方便机器人高效地对接有关网站。

重要

网站链接限制:

  • 机器人所爬取的网页需要无登录授权验证,无需验证当前用户身份授予用户系统访问权限就可访问

  • 暂不支持异步加载类型的网站内容爬取;

  • 请您确保在法律法规允许的范围内使用本网页解析工具,遵守目标平台管理规范、保障权利人合法权益,您应对此独立承担责任。 通义晓蜜作为工具提供方不对您的解析或下载行为承担任何责任。

添加网站

重要

不同版本可支持添加网站的数量有差别,如企业版(通义版)支持最多可添加10个网站,有关具体版本对应可使用资源信息可参考《产品计费》产品定价部分。

添加网站知识

  1. 创建机器人后,进入有关机器人空间,选择知识管理>网站知识,进入网站知识管理界面;

  2. 单击添加网站按钮,根据实际业务需求填写网站链接高级设置定时更新方式选择,单击确定按钮后,机器人即开始获取有关网站的知识。

image

说明
  • 添加符合限制要求的链接后,系统将解析网页及页面内的超链接中相同域名(采用广度遍历抓取逻辑)的30个网页。

  • 添加符合限制要求的链接后,可点击“爬取测试”按钮进行爬取结果预览,预览界面如下图所示:image

  • 定时更新:知识定时更新爬取的网站知识,保证网站知识的时效性。支持选择不更新、每天自动更新、每周自动更新、每月自动更新。

  • URL过滤:url过滤用于网页URL过滤,基于正则表达式进行过滤,添加后网站内的网页链接能匹配到表达式才会进行网页解析,最多可添加10个过滤条件。

    • 示例:

      目标解析网页为:http://www.xxx.com/abc/123/index.html

      url过滤可设为:

      http://www.xxx.com/[a-z]*/[0-9]*/index.html
  • Xpath:Xpath过滤用于获取网页内的外链,基于XPath规则,支持10个Xpath选取规则,默认支持网页内<a href...></a>外链。

    • 示例

      获取网站内的外链,分析页面如下图,可以设置Xpath过滤项目为://a/@tagname

      image.png

  • 内容过滤:内容过滤用于精准获取网页内容,基于CSS选择器,最多可添加支持10个配置。默认获取body下所有元素下的文本内容。

    • 示例1:

      要精确获取div标签下class为article的内容,<div class="article">网页内容</div>

      该配置项设为:div.article

    • 示例2:

      获取https://xiaoshiyi.blog.csdn.net/article/details/133788837 内的文章内容

      image.png

      检查发现内容在<div id="content_views" class="markdown_views prism-atom-one-light">网页内容</div>中,内容过滤项可以设置为:div.markdown_views prism-atom-one-light

  1. 不同网站的内容结构可能不尽相同,对不同的网站可自定义其文档解析规则的配置,优化文档解析效果从而优化基于文档知识的问答效果。

    • 文档片段长度:文档片段最大字数上限,当前支持单个文档片段字数最多为800字。

    • 层级解析模式(规则解析):通过选择文档标题规则或自定义文档标题规则识别文档段落层级信息。

      说明

      网站知识的层级解析模式(规则解析)与文档知识的解析模式相同,具体解析规则含义与配置操作可参考《文档解析规则自定义示例》。

image

绑定网站知识

绑定网站知识是指在业务空间已经添加了有关网站知识后,在机器人空间中绑定业务空间中已经添加过的网站知识。具体步骤如下:

  1. 创建机器人后,进入有关机器人空间,选择知识中心>网站知识,进入网站知识管理界面;

  2. 单击绑定已有网站按钮,根据实际业务需求勾选需绑定的网站,单击确定按钮后,机器人即获取有关网站的知识。

image

说明

在业务空间中添加网站知识参考步骤:

  1. 进入有关业务空间,选择知识中心>网站知识,进入网站知识管理界面;

  2. 单击添加网站按钮,根据实际业务需求填写网站链接高级设置,单击确定按钮后,即开始获取有关网站的知识。

已获取网站知识内容刷新、查看与删除

刷新已获取网站知识

已获取的网站知识是某一时间点下的有关网站的内容,当后续网站内容有所变化,业务上对应需要同步更新有关网站知识,则需要对已获取的网站知识进行刷新。具体操作步骤如下:

  1. 进入有关机器人空间,选择知识中心>网站知识,进入网站知识管理界面;

  2. 单击有关网站链接右侧重试按钮,机器人将重新爬取有关网站知识内容;

image

查看已获取网站知识

  1. 进入有关机器人空间,选择知识中心>网站知识,进入网站知识管理界面后,单击有关网站链接右侧查看按钮后,进入该链接及同域名下的超链接的展示界面;

  2. 根据实际业务需求,单击具体链接右侧查看按钮即可查看有关网站知识内容;

image

删除已获取网站知识

进入有关机器人空间,选择知识中心>网站知识,进入网站知识管理界面后,单击有关网站链接右侧删除按钮,确认后即可完成有关网站知识的删除。

image

已获取网站名称编辑

由于原始网站名称可能存在不规范的情况,支持网站名称编辑功能。具体编辑操作步骤如下:

  1. 进入有关机器人空间,选择知识中心>网站知识,进入网站知识管理界面;

  2. 将鼠标移至有关网站名称下,单击编辑按钮后,根据实际业务需求完成网站名称修改;

image