本文介绍搜索结果中的Tags的各枚举值、分布以及使用
标签介绍
为站点、URL Path提供标签数据,并通过URL Regex Pattern应用到URL,这些标签数据将帮助用户更好地理解搜索结果、过滤内容。
由于数据层面的标签(Tag)可能存在缺失,甚至特定 Query 下的所有结果均无标签,请遵循以下过滤原则:
优先采用排除逻辑:建议通过“黑名单/排除法”进行过滤,以降低漏掉无标签数据的风险。
配置降级策略:若必须使用“指定标签”进行包含过滤,务必设置降级/兜底方案。
触发兜底条件:当过滤结果为空或数量低于预设阈值时,应自动降级为“全量召回”模式(即取消标签过滤限制)。
标签列表:
标签 | 名称 | 类型 | 说明 |
genre | 内容类型 | Enum | 标识网页的内容形式和类型,如:新闻门户、博客、社交媒体、视频网站等 |
isUgc | 是否UGC | Bool | 标识内容是否为用户生成内容 |
ugcType | UGC类型 | Enum | isUgc=true时,UGC内容类别,如:媒体文章、博客帖子、问答、笔记分享等 |
industry | 行业分类 | Enum | 标识内容所属的行业领域,如:汽车、金融、医疗、政务、旅游等 |
isListPage | 是否列表页 | Bool | 标识页面是否为列表/索引页面; |
枚举值与样例
由于索引的站点、Path持续变化,不同标签的覆盖率会持续变化;当前链接的标签覆盖率约:89%
genre(内容类型)
枚举值 | 说明 | URL示例 |
| 新闻门户 | |
| 博客 | |
| 论坛UGC | |
| 商业类 | |
| 百科类 | |
| 社交媒体 | |
| 视频网站 |
isUgc(是否UGC)
值 | 说明 | URL示例 |
| UGC内容 | |
| 非UGC内容 |
ugcType(UGC类型)
isUgc=true 时,ugcType有意义;
枚举值 | 说明 | URL示例 |
| 媒体文章 | |
| 博客文章 | |
| 结构化问答 | |
| 笔记分享 | |
| 资源聚合 | |
| 技术教程 | |
| 短动态 | |
| 论坛帖子 | |
| 评测&评价 |
industry(行业分类)
枚举值 | 说明 | URL示例 |
| 通用/其他 | |
| 综合资讯 | |
| 金融行业 | |
| 教育培训 | |
| 娱乐休闲 | |
| 科技行业 | |
| 旅游出行 | |
| 汽车行业 | |
| 政务机构 | |
| 医疗健康 | |
| 招聘行业 |
isListPage(是否列表页)
值 | 说明 | URL示例 |
| 非列表页(详情页) | |
| 列表页 |
使用说明与建议
UnifiedSearch API 搜索结果中的PageItem->tags中返回了对应的标签数据,目前暂不支持检索条件中对指定条件进行过滤,需要使用方根据业务场景对结果进行过滤;
请求样例
curl -X POST https://cloud-iqs.aliyuncs.com/search/unified \
--header "Authorization: Bearer $API_KEY" \
--header "Content-Type: application/json" \
--data '{
"query": "杭州天气",
"engineType": "LiteAdvanced",
"contents": {
"mainText": true,
"markdownText":false,
"summary": false,
"rerankScore": true
}
}'
返回结果
{
"requestId": "c7ca543a-6fc3-4563-a39a-720ffb134978",
"pageItems": [
{
"title": "浙江省杭州2026年03月15日天气预报",
"link": "https://tianqi.moji.com/forecast10/china/zhejiang/hangzhou",
......
"tags": {
"genre": "Official",
"isUgc": "false",
"industry": "General",
"isListPage": "false",
}
},
....
]
}使用建议
尽量使用排除标签值,避免由于过滤少量标签值导致无结果;
使用标签值组合排除可以获取更好的结果
可根据实际的使用场景,对于badcase对应的标签值组合进行排除;
使用场景示例
1. 汽车检索场景,剔除掉一些权威性低,UGC站点内容:
Query:理想L73款车型的区别
nunResults: 20
过滤代码:
def should_exclude(tags: dict) -> bool: """ 判断是否应该排除该结果 排除条件(满足任一即排除): 1. tags.ugcType in ("StructuredQA", "NoteShare", "ForumPost") 2. tags.isUgc == "true" && tags.genre == "ForumUgc" """ exclude_ugc_types = ("StructuredQA", "NoteShare", "ForumPost") ugc_type = tags.get("ugcType", "") genre = tags.get("genre", "") is_ugc = tags.get("isUgc", "") # 条件1: ugcType 在排除列表中 if ugc_type in exclude_ugc_types: return True # 条件2: 是UGC且类型为ForumUgc if is_ugc == "true" and genre == "ForumUgc": return True return False排除掉urls:
ugcType in (StructuredQA, NoteShare)
genre = ForumUgc and isUgc=true
2.剔除掉列表页
Query:华为汽车的最新动态及产品信息
nunResults: 20
过滤条件:isListPage=true
排除掉的urls: