文档

CreateSpider-新增网站导入任务

更新时间:

新增网站任务。

URL

POST /v4/openapi/app-groups/[appGroupIdentity]/chatos/spiders
  • [app_group_identity]:表示应用名(需要指定应用名访问,主要针对服务中的应用版本)。

  • 以上 URL 省略了请求Header参数及编码等因素。

  • 以上 URL 中省略了访问应用的 host 地址。

请求协议

HTTP

HTTP请求方式

POST

支持格式

JSON

请求参数

参数

类型

必须

描述

url

String

网站链接:一个应用下url不能重复。

category

String

类目:该字段会放到主表的category字段,用于区分不同的网站导入数据。一个应用下面category不能重复。

urlRegex

List<String>

url过滤:用于网页url过滤,基于正则表达式,支持多个过滤条件。

默认的URL过滤规则为以url的开头的网站地址。比如网站url为http://www.abc.com/,则默认正则表达式为:http://www\.abc\.com/.*

xpathSelectors

List<String>

xpath选择器:用于精准获取网页内容,基于Xpath选择器,支持多个配置。

比如要精确获取div标签下的内容,该项设为://div

cssSelectors

List<String>

css选择器:用于精准获取网页内容,基于CSS选择器,支持多个配置。

比如要精确获取div标签下class为content的内容,<div class="content">网页内容</div>

该项设为:div.content

请求体示例:

{ 
 "category": "opensearch产品文档"
 "url": "http://xxx"
}

返回结果

参数

类型

描述

errors

List

错误内容。

status

String

status:执行结果,OK为成功,FAIL为失败,请根据返回错误码进行排查。

request_id

String

当前请求ID。

code

String

错误码。

message

String

错误信息。

latency

String

延迟时间。

响应体示例:

{
 "status" : "OK",
 "requestId" : "",
 "httpCode": 200,
 "code": "",
 "message": "",
 "latency" : 123
 
}

注意事项

  • 爬取指定url后面所有的网页内容(默认是该网页开头部分的链接,非该网站链接忽略)。

  • 如果网站robots.txt不允许爬取内容,则返回报错如果网站地址已经存在。

  • 一个应用只能有一个running的爬虫任务。