全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 阿里云办公 培训与认证 物联网

舆情过滤规则配置和标签管理

更新时间:2017-06-07 13:26:11

过滤规则管理

配置好专题及关键词后,如果抓取的内容太多怎么办?其中一个办法是通过设置“过滤规则”来对抓取内容进行过滤。满足定义好的过滤规则的内容将不再抓取。

1、添加过滤规则

在控制台首页,点击左边菜单“舆情分析—舆情配置—过滤规则管理”即进入规则管理界面,默认是打开“过滤规则”管理界面。顶部有个重要选项“是否跳过垃圾箱”建议“开启”,即过滤的内容是否进去垃圾箱,如果开启,则过滤内容不进去垃圾箱,则不消耗推送舆情配额。keywords

点击”添加规则”按钮,即可按关键词、反馈名/源站名称、网站URL来进行规则设定。如下图:keywords

“规则”需要根据下面的“过滤类型”来填写不同的内容,关键词是针对抓取的文本内容来过滤的,中“反馈名/源站名称”则是针对抓取文本所属站点名称来过滤的,如“网易娱乐”、“微博”、“Techweb”,“网站url”则是针对抓取的站点url来过滤的,如m.techweb.com.cn。

填写“规则”需学习下面几点:

a、规则可以直接写关键字进行匹配,示例:搜索 。会把包含”搜索“的内容进行匹配

b、多个关键字同时匹配请用 AND (注意前后有空格)来连接,表示且的逻辑:同时包含多个关键词才进行匹配。示例:搜索 AND 店铺,会把同时包含搜索+店铺的内容进行匹配

c、匹配任意一个关键字用 , (英文的逗号)或者 OR (注意前后有空格)来连接。如:搜索,找不到。表示匹配到”搜索”或者”找不到”的内容。

d、支持括号。示例:(搜索 OR 找不到) AND 店铺。会匹配包含”店铺“并且”搜索“的内容 或者 包含”店铺“并且”找不到“的内容。

e、支持不包含,只需要在不包含词加英文感叹号。示例:!淘宝 AND 阿里。会匹配包含“阿里”并且不包含“淘宝”的内容。

f、规则支持正则表达式,只需要在规则前增加RE(空格),示例1: RE ^\w+$,表示对纯数字/英文的内容进行匹配。示例2:RE^[\s\S]{0,5}$,表示对小于5个字符的内容进行匹配

g、正则表达式测试教程

2、编辑&删除过滤规则

每条规则的右侧都有“编辑”及“删除”按钮,按步骤操作即可。

标签管理

配置好关键词后,想对抓取的内容打上标签,则可以使用“标签管理”来实现。

1、添加标签

在控制台首页,点击左边菜单“舆情分析—舆情配置”即进入舆情配置管理界面,默认是打开“关键词管理”,点击tab”标签管理”按钮进入标签规则管理界面,在这里可以建立针对抓取内容标签。keywords在“添加标签”界面需要输入自定义的标签名称及规则(多个关键词组合),填写注意事项同上“过滤规则”。keywords

2、编辑&删除标签规则

点击“编辑”及“删除”按钮,按步骤操作即可。标签被编辑修改之后,大约过2分钟之前打过舆情的标签会很快修改。

本文导读目录