全部产品
存储与CDN 数据库 安全 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 钉钉智能硬件

开发者指南

更新时间:2017-06-07 13:26:11

一、概述

开发者可以通过API数据接口进行:关键词专题配置、关键词配置、接收实时抓取数据、微博传播路径分析。还可以利用现数据分析。

注意1:数据接口仅在购买”API版本”后才开放。

一、准备工作

1 、通过实名认证的阿里云账号

2、开通消息服务(如果不需要接收舆情推送,此步可不需要做)

购买API版本前,需要先开通消息服务(此服务接收数据是免费的),用于接收实时数据推送。

开通入口

二、使用API

进入公众趋势分析后,点击左侧导航的:开放接口。即可进行在线的API测试。

入口

测试没问题后,即可在代码中进行API调用。详细的API文档请 点击这里

三、接收实时推送的舆情数据

1、开通消息队列服务

请确保此步已经完成。请参考一、准备工作的第2点。

2、进行消息订阅

购买API版本后,请联系我们的销售或者提交工单,要求技术同学添加授权。授权好后,使用主账号登录。在阿里云控制台-消息队列服务中,看到已经授权好的topic。

点击申请订阅,填写接收方的Consumer ID。此ID为全局唯一,用于标识接收方。名字以CID_开头,后面随意,满足规则即可。一个CID表示一组机器,一条推送只会被一组机器里面的其中一台机器消费。

3、编辑订阅代码

点击订阅管理,可以看到订阅关系已经创建好了。参考示例写代码。

消息队列服务的详情使用说明请参考这里

4、推送数据格式说明

推送的数据包含2部分:

  1. 原始舆情数据本身。 在MetaQ消息中,用Tag:baseData表示。
  2. 算法聚类结果:用于告诉业务方,哪些信息是相似的舆情。用Tag:cluster 表示。相似算法又由两部分组成:
  • 一部分是实时地进行相似判断:数据会快速的进行最近一定时间范围内(通常为一周)数据的判断相似。延时较低,秒级别。
  • 另外一部分是离线地进行相似判断:数据会将产品中所有的历史数据进行相似度计算。延时更高。可能为小时级别。
baseData属性说明
参数名 参数类型 说明
id int 舆情对象主键
productId int 先知的产品编号
spiderTopicId int 抓取类型:与源站类型是一一对应的。
monitorKeywordId int 舆情抓取关键词的全局ID
monitorKeywords string 舆情抓取的关键字内容
monitorTopicId int 专题ID
from string 网站名/微博作者/微信公众号
url string 舆情链接。对应新闻URL/微博URL/微信公众号文章URL等
filterStatus int 0:待确认舆情,1:有效舆情 2:被过滤的舆情(放垃圾箱)
createdAt date 抓取时间
pubTime date 新闻/微博发布的时间(如果只获取到天,时分秒都为0)
wbId int 微博的主键ID
wbUserId int 微博用户的主键ID
wbFansCount int 微博粉丝数。可能在数据量大的情况下此值为空.
wbRepostCount int 微博转发数。原创微博抓取瞬间几乎都为0,如果为转发微博,建议开发者更新被转发微博的转发次数
wbCommentCount int 微博评论数。原创微博抓取瞬间几乎都为0,如果为转发微博,建议开发者更新被转发微博的评论次数
wbLikeCount int 微博赞数。原创微博抓取瞬间几乎都为0,如果为转发微博,建议开发者更新被转发微博的点赞次数
wbVerifiedType int 微博用户认证类型 0-普通,1-个人认证,2-企业认证,3-微博达人。可能在数据量大的情况下此值为空。
wbType int 微博类型:0为原创微博,1为转发微博,2为微博评论
emotionTendency int 情感极性0中性 1正面 -1负面
emotionScore int 情感分数,绝对值越大,表示对应的情感越强烈
urlMD5 string url的md5哈希值
tags string 自动打上的标签,多个会用竖线进行分隔。
langType string 语言类型。如ch表示中文,en表示英文
subject string 文章标题。如果是微博,则为微博内容的摘要。
description string 正文摘要(100字以内)。如果是微博,则为微博内容的前100个字符
translateSubject string 如果是非中文和英文,翻译成英文之后的标题
translateDescription string 如果是非中文和英文,翻译成英文之后的详情
合并相似推送属性说明

示例:有数据A、B、C,三条舆情,ID分别为x,y,z这三条被算法认为是相似的。那么clusterid则为其中一条ID,假如为x。feedbackids为另外两条的ID。[y,z]。

参数名 参数类型 说明
productid int 产品空间的主键
clusterid int 类中心ID。对应baseData中的id
feedback_ids array 类簇数据ID集合,是一个数组
type string realtime - 实时计算,offline - 离线计算
本文导读目录