新增网站任务。
URL
POST /v4/openapi/app-groups/[appGroupIdentity]/chatos/spiders
[app_group_identity]:表示应用名(需要指定应用名访问,主要针对服务中的应用版本)。
以上 URL 省略了请求Header参数及编码等因素。
以上 URL 中省略了访问应用的 host 地址。
请求协议
HTTP
HTTP请求方式
POST
支持格式
JSON
请求参数
参数 | 类型 | 必须 | 描述 |
url | String | 是 | 网站链接:一个应用下url不能重复。 |
category | String | 是 | 类目:该字段会放到主表的category字段,用于区分不同的网站导入数据。一个应用下面category不能重复。 |
urlRegex | List<String> | 否 | url过滤:用于网页url过滤,基于正则表达式,支持多个过滤条件。 默认的URL过滤规则为以url的开头的网站地址。比如网站url为 |
xpathSelectors | List<String> | 否 | xpath选择器:用于精准获取网页内容,基于Xpath选择器,支持多个配置。 比如要精确获取div标签下的内容,该项设为: |
cssSelectors | List<String> | 否 | css选择器:用于精准获取网页内容,基于CSS选择器,支持多个配置。 比如要精确获取div标签下class为content的内容,<div class="content">网页内容</div> 该项设为: |
请求体示例:
{
"category": "opensearch产品文档"
"url": "http://xxx"
}
返回结果
参数 | 类型 | 描述 |
errors | List | 错误内容。 |
status | String | status:执行结果,OK为成功,FAIL为失败,请根据返回错误码进行排查。 |
request_id | String | 当前请求ID。 |
code | String | 错误码。 |
message | String | 错误信息。 |
latency | String | 延迟时间。 |
响应体示例:
{
"status" : "OK",
"requestId" : "",
"httpCode": 200,
"code": "",
"message": "",
"latency" : 123
}
注意事项
爬取指定url后面所有的网页内容(默认是该网页开头部分的链接,非该网站链接忽略)。
如果网站robots.txt不允许爬取内容,则返回报错如果网站地址已经存在。
一个应用只能有一个running的爬虫任务。