全部产品
弹性计算 会员服务 网络 安全 移动云 数加·大数据分析及展现 数加·大数据应用 管理与监控 云通信 阿里云办公 培训与认证 智能硬件
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 更多
流计算

大数据总线(DataHub)

更新时间:2017-12-07 17:28:54

注册

DataHub作为一个流式数据总线,为阿里云数加平台提供了大数据的入口服务。结合阿里云众多云产品,可以构建一站式的数据处理平台。流计算通常使用DataHub作为流式数据存储头和输出目的端。

注: DataHub在公有云使用需要用户授予流计算代为用户访问DataHub权限,具体请参看《流计算角色授权》。否则可能出现报错”No Permission”的情况。

22

  • Endpoint

填写DataHub的Endpoint,注意不同的地域下DataHub有不同的Project。因为当前DataHub仅支持杭州地域,为http://dh-cn-hangzhou.aliyun-inc.com(特别注意不要使用/结尾)。如需了解更多Endpoint情况,请访问DataHub控制台。

VPC模式支持: 注意当前DataHub不提供VPC模式,因此流计算当前使用DataHub的经典网络地址(Endpoint)即可。

内外网选择: 上述http://dh-cn-hangzhou.aliyun-inc.com是DataHub在阿里云内网地址,流计算和DataHub实际上同处于阿里云内网,使用内网访问更加节省带宽。

有关专有云的Endpoint填写,请联系您的专有云系统管理员咨询有关DataHub Endpoint的地址。

  • Project

填写DataHub的Project。特别注意,跨属主的数据存储不能注册。例如A用户拥有DataHub的ProjectA,但B用户希望在流计算使用ProjectA,目前流计算暂不支持这类使用情况。

使用

由于DataHub本身是流数据存储,流计算只能将其作为流式数据输入和输出,无法作为维表引用。有关DataHub DDL定义,请参看具体章节:

Q: 为什么我注册失败,失败原因提示XXX?

A: 流计算的数据存储页面仅仅提供协助您完成数据管理,其本身就是使用相关存储SDK代为访问各类存储。因此很多情况下可能是您注册过程出现疏忽导致,请排查如下原因:

请确认是否已经开通并拥有DataHub的Project。请登录DataHub控制台,公有云客户可以访问DataHub控制台看您是否有权限访问您的Project。

请确认您是DataHub Project的属主, 特别注意,跨属主的数据存储不能注册。例如A用户拥有DataHub的ProjectA,但B用户希望在流计算使用ProjectA,目前流计算暂不支持这类使用情况。

请确认您填写的DataHub的Endpoint和Project完全正确。特别注意的是DataHub Endpoint必须以http开头,且不能以/结尾,例如http://dh-cn-hangzhou-internal.aliyuncs.com是正确的,但http://dh-cn-hangzhou-internal.aliyuncs.com/是错误的。

请确认您填写的DataHub Endpoint是经典网络地址,而非VPC地址。目前流计算暂不支持VPC内部地址。

不要重复注册,流计算提供注册检测机制,避免您重复注册。

Q: 为什么数据抽样仅仅针对时间抽样,不支持其他字段抽样吗?

A: DataHub定位是流数据存储,对外提供的接口也仅仅只有时间参数,因此流计算也只能提供基于时间的抽样。

附录

产品 内网/公网选择

本小节仅限于公共云场景,不包含专有云情况所谓的内网/公网是相对于阿里云集群来说。我们可以将阿里云计算视为一个跨地域的大型计算集群,集群内部之间的网络传输可以使用阿里云内网(例如流计算访问RDS,则是使用阿里云内部网络带宽),这样可以有效地节省网络带宽成本;对于外部(例如在Internet)网络请求阿里云服务,则需要使用公网地址。流计算注册DataHub过程中,要求用户必须提供DataHub内网Endpoint地址。 但对于外部数据写入DataHub而言,例如在当前PC机器使用LogStash采集传输日志则需要填写DataHub公网地址。如下图所示:

55

本文导读目录