网页标签(tags)

更新时间:
复制为 MD 格式

本文介绍搜索结果中的Tags的各枚举值、分布以及使用

标签介绍

为站点、URL Path提供标签数据,并通过URL Regex Pattern应用到URL,这些标签数据将帮助用户更好地理解搜索结果、过滤内容。

重要

由于数据层面的标签(Tag)可能存在缺失,甚至特定 Query 下的所有结果均无标签,请遵循以下过滤原则:

  1. 优先采用排除逻辑:建议通过“黑名单/排除法”进行过滤,以降低漏掉无标签数据的风险。

  2. 配置降级策略:若必须使用“指定标签”进行包含过滤,务必设置降级/兜底方案。

  3. 触发兜底条件:当过滤结果为空或数量低于预设阈值时,应自动降级为“全量召回”模式(即取消标签过滤限制)。

标签列表:

标签

名称

类型

说明

genre

内容类型

Enum

标识网页的内容形式和类型,如:新闻门户、博客、社交媒体、视频网站等

isUgc

是否UGC

Bool

标识内容是否为用户生成内容

ugcType

UGC类型

Enum

isUgc=true时,UGC内容类别,如:媒体文章、博客帖子、问答、笔记分享等

industry

行业分类

Enum

标识内容所属的行业领域,如:汽车、金融、医疗、政务、旅游等

isListPage

是否列表页

Bool

标识页面是否为列表/索引页面;

枚举值与样例

由于索引的站点、Path持续变化,不同标签的覆盖率会持续变化;当前链接的标签覆盖率约:89%

genre(内容类型)

枚举值

说明

URL示例

NewsPortal

新闻门户

Blog

博客

ForumUgc

论坛UGC

Commerce

商业类

Encyclopedia

百科类

Social

社交媒体

VideoSite

视频网站

isUgc(是否UGC)

说明

URL示例

true

UGC内容

false

UGC内容

ugcType(UGC类型)

isUgc=true 时,ugcType有意义;

枚举值

说明

URL示例

MediaArticle

媒体文章

BlogPost

博客文章

StructuredQA

结构化问答

NoteShare

笔记分享

ResourceAgg

资源聚合

TechTutorial

技术教程

ShortFeed

短动态

ForumPost

论坛帖子

ReviewEval

评测&评价

industry(行业分类)

枚举值

说明

URL示例

General

通用/其他

News

综合资讯

Finance

金融行业

Education

教育培训

Entertainment

娱乐休闲

Tech

科技行业

Travel

旅游出行

Auto

汽车行业

Gov

政务机构

Medical

医疗健康

Recruitment

招聘行业

isListPage(是否列表页)

说明

URL示例

false

非列表页(详情页)

true

列表页

使用说明与建议

UnifiedSearch API 搜索结果中的PageItem->tags中返回了对应的标签数据,目前暂不支持检索条件中对指定条件进行过滤,需要使用方根据业务场景对结果进行过滤;

请求样例

curl  -X POST https://cloud-iqs.aliyuncs.com/search/unified \
--header "Authorization: Bearer $API_KEY" \
--header "Content-Type: application/json" \
--data '{
  "query": "杭州天气",
  "engineType": "LiteAdvanced",
  "contents": {
    "mainText": true,
    "markdownText":false,
    "summary": false,
    "rerankScore": true
  }
}'

返回结果

{
    "requestId": "c7ca543a-6fc3-4563-a39a-720ffb134978",
    "pageItems": [
        {
            "title": "浙江省杭州2026年03月15日天气预报",
            "link": "https://tianqi.moji.com/forecast10/china/zhejiang/hangzhou",
            ......
            "tags": {
                "genre": "Official",
                "isUgc": "false",
                "industry": "General",
                "isListPage": "false",
            }
        },
        ....
    ]
}

使用建议

  1. 尽量使用排除标签值,避免由于过滤少量标签值导致无结果;

  2. 使用标签值组合排除可以获取更好的结果

  3. 可根据实际的使用场景,对于badcase对应的标签值组合进行排除;

使用场景示例

1. 汽车检索场景,剔除掉一些权威性低,UGC站点内容:

2.剔除掉列表页