全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 阿里云办公 培训与认证 物联网

常见问题

更新时间:2017-06-07 13:26:11

1、“公众趋势分析”能做什么?

  • 互联网是触达用户、感知公众态势的最有效方式。”公众趋势分析”就是帮助用户观看互联网的眼睛。以阿里集团为例,一项互联网业务如果发生异常或政策更新,可能影响大批用户群。传统的反馈方式是:业务异常->用户反馈->客服记录->业务排查->客服反馈->回复用户,这种模式效率低下,中间过程的信息传递失真,并且不是每个用户都愿意花时间反馈,也许网上抱怨一下就直接用脚投票了。
  • 因此,我们推出“公众趋势分析”服务,业务方可以第一时间倾听用户心声,并通过预判用户群体的喜好倾向,指导产品和服务的改进升级。

2、“公众趋势分析”的内容源站覆盖哪些范围?

  • 常规源站由神马搜索引擎覆盖,涵盖千万源站,每天更新10亿网页,平均延迟10分钟左右,具体刷新时间将根据每个源站内容更新的频率,动态调整。
  • 高优先级源站直接用爬虫抓取,最快2分钟刷新;后续用户可以手动增加一些源站进入高优先级列表。
  • 用户可以为每个关键词组合分别指定采集的源站类型,可选的源站类型包括:新闻、论坛、贴吧、微博、微信、政府网站和视频类网站。

3、为什么必须预先设定监测对象及关键词?

  • 本产品是为了关注媒体公众“将要发出的声音”,配置关键词之后,才开始采集新发出的文章内容,此前已经发出的内容不做采集。
  • 注意,这款产品不是用来搜索全网历史数据的,仅针对已经采集入库的文章内容进行搜索分析(未来或许会考虑开放神马搜索引擎的分析接口,用于分析全网采集的历史数据)。因此,用户需要预先设定监测对象,系统采集到包含指定关键词的内容才推送给用户。
  • 后续版本将支持根据热点文章的内容,后台自动创建并维护新的监测对象。

4、配置监控关键词之后,为什么没有看到采集内容?

  • 系统后台每10分钟才会更新全局的关键词采集策略,因此新的关键词提交配置之后,需要10分钟左右生效。
  • 配置的关键词未匹配或者配置错误,如过长且没有按词语来提交:“iPhone7的最新功能有什么”可以换为“iPhone 新功能”,再如关键词组合中缺少空格分隔。比如用户想抓取“杭州 交通事故”,但误设为“杭州交通事故”,那么系统默认将 “杭州交通事故”视为一个词进行关键词匹配
  • 未关联合适的源站类型,如你设置了“iPhone 新功能”,关联的源站类型是“政府”,那采集到的可能性就大大降低了
  • 数据被过滤到垃圾箱,如你设置了一个过滤规则可能正好将这个要采集的内容筛掉了
  • 源站本身在监控范围外,需要在“站点配置”提交站点申请,一般3~5工作日审核生效
  • 该计量周期内配额消耗完了

5、配置关键词之后,为什么采集不到网站以前的文章?

  • 关键词配置后是从配置开始抓取。历史数据并不会大范围抓取(最多允许前2天的数据进来)

6、关键词删除后,数据为何还在?

  • 删除关键词后,已经抓取的数据并不会清除。如果需要清除,需要手动批量过滤掉。

7、采集的数据为何不支持导出?

  • 由于数据安全性要求,数据暂时不提供本地下载功能。
  • 如果一定要导出,请升级API版本;或者工单联系我们告知导出的原因,我们会来考虑你的需求。

8、首页统计图表怎么没有内容?

  • 首页报表每小时刷新一遍统计信息,初次运行时可能会有些延迟,之后应该就正常刷新了。

9、抓取的舆情为何过一段时间就看不到了?

  • 如果舆情(非回收站)在30天内未处理(即进行打标),将会从前台界面不可搜索
  • 如果舆情在回收站中,只保留最近3天的数据

10、能否自动对相同的文章进行合并去重?

  • 系统采集到文章内容之后,可以自动合并去重,并采用聚类算法自动分类,将热度最高、被转载次数最多的Top10文章以图表的形式展现于首页。

11、能否对采集的内容进一步筛选?

  • 用户可以手动设定“过滤规则”,并可将文章列表中的批量内容提交至垃圾语料库(即手动标注为无效文章),通过机器学习,后续遇到该类内容时即可智能过滤。
  • 智能过滤的效果取决于提交垃圾语料的数量,语料数量越多,过滤越准确。通常手动标注100篇左右的文章之后,系统自动过滤的准确性可以达到96%以上。
  • 此外,过滤规则也可明确指定具体的关键词、作者或者某个源站,排除这些内容。

12、标签规则 vs 过滤规则?

  • 标签规则:是对已采集的内容建立多层级的知识结构,则可以使用“标签规则”来实现。如针对“iPhone7”这个关键词抓取的内容,想从“新功能”“性价比”两方面来归类,且“新功能”关注了电池、耳机、屏幕等
  • 过滤规则:配置好专题及关键词后,如果采集的内容太多太杂怎么办?其中一个办法是通过设置“过滤规则”来对采集内容进行过滤,提高后续采集的准确度。满足定义好的过滤规则的内容将不再采集

13、能否采集境外站点的内容?

  • 全球化是阿里集团的既定策略,当然也需要关注境外站点、多语种的内容分析。不过,当前版本只开放了境内中文站点的采集功能,后续将陆续开放对境外站点的采集分析。

14、关键词组合的数量、或者每月采集推送的文章数量不足怎么办?

  • 用户可以购买增量包升级。该功能将在9月份的版本中开放。

15、我有新的站点,需要添加到高优先级源站列表中,应如何提交网站信息?

  • 系统默认已经有一批高优先级源站的列表,覆盖常见的媒体站点。同时,用户也可以在“站点配置”申请指定一些站点,增录到高优先级源站列表。
  • 申请站点有几个注意事项:违规:涉及反动、暴力、黄色等政策不允许站点;阿里系站点的数据采集;低质量:网站完全或者经常性无法打开,数据过少(半年以上无数据),打开速度慢;内容不符:没有增量列表页,无标题、内容,采集图片、语音、附件、视频

16、是否可以接入子账号使用?

可以,需要操作一下步骤:

可参照该文档的步骤1&2:https://help.aliyun.com/document_detail/30264.html

同时注意,子账户与主账户共用公众趋势分析控制台所有的功能。请谨慎操作。

本文导读目录