全部产品
阿里云办公

云上数据导入

更新时间:2018-04-12 22:02:59

阿里云上数据导入阿里云ES(离线)

阿里云上拥有丰富的云存储、云数据库产品。如果您希望针对这些产品中的数据进行分析和搜索,可以通过 数据集成(Data Integration)来实现最快 5min 一次的离线数据,同步到Elasticsearch的需求。

支持数据源

  • 阿里云云数据库(MySQL、PG、SQL Server、PPAS、MongoDB、HBase)
  • 阿里云DRDS
  • 阿里云MaxCompute(ODPS)
  • 阿里云OSS
  • 阿里云Table Store
  • 自建HDFS、Oracle、FTP、DB2,及上述云数据库的自建版本

注意

做数据同步时可能会产生公网流量费用,请您知晓。

操作步骤

完成离线数据导入,需要您完成以下几步操作:

  • 您需要有一台可以与 VPC 内的 Elasticsearch 交互的ECS,这台 ECS 将获取数据源数据并执行写ES数据的“Job”(该任务将有“Data Integration系统统一下发”)。
  • 您需要开通 Data Intergration 的服务,并且将ECS作为一个可以执行 Job 的“资源”注册到 Data Intergration 的服务中去。
  • 您需要配置一个“数据同步的脚本”,并且让其可以周期性的执行起来。

详细步骤

  1. 购买一台与Elasticsearch服务处于同一个VPC内的ECS服务器,并分配一个公网IP合或开通弹性IP,为了节省您的成本,您可以复用已有的ECS服务器,(如何购买ECS,请参考ECS购买文档)。

    注意

    • 建议使用 centos6、centos7 或者 aliyunos。
    • 如果您添加的 ECS 需要执行 MaxCompute 任务或者同步任务,需要检查当前 ECS 的 python 版本是否是 python2.6或2.7 的版本(centos5 的版本为 2.4 ,其余 os 自带了 2.6 以上版本)。
    • 请确保 ECS 有公网 IP。
  2. 前往Data Integration控制台,并进入工作区。

    如果您已经开通过Data Integration 或者 DataWorks 产品,您将会看到如下页面:console

    如果您未开通过Data Integration 或者 DataWorks 产品,您将会看到如下页面,您需要按照步骤进行 Data Integration 的开通,此开通动作 会产生费用,请您按照费用提示进行预算评估:console

  3. 进入Data Integration的项目管理-调度资源管理页面,将您之前VPC内的ECS配置成为一个调度资源。详细配置参考调度资源配置文档console

  4. 在Data Integration中配置数据同步脚本,具体配置请参考数据同步脚本配置文档。Elasticsearch的Config规则请参考 ES Writer文档console

    注意

    • 同步脚本的配置分为三个部分,Reader是配置您上游数据源(待同步数据的云产品)的config,Writer是配置ES的config,还有一个setting是配置同步中的一些丢包和最大并发等设置
    • ES Writer中accessId和accessKey需要配置您的Elasticsearch的访问“用户名”和“密码”
  5. 脚本配置完成后,将数据同步Job进行提交,按照需求填写相应的周期性执行配置,并点击“确定”完成提交动作。console

    注意

    • 如果您希望周期性调度,需要配置周期任务,具体的Job开始执行时间,周期间隔,Job生命周期,均需要在这个弹窗中配置
    • 周期任务将于配置任务开始的第二天00:00,按照您的配置规则生效执行
  6. 最后一步提交完成后,请务必前往“运维中心-周期任务”,找到您提交的Job,将其调度资源从“默认”修改为“您配置好的调度资源”。console

实时数据导入

功能开发中,敬请期待。

本文导读目录