数据库实时导入DataHub

为了更加方便让数据库数据实时导入到DataHub,联合数据集成一起开发了“数据库实时导入到DataHub”,尽量简化数据流入DataHub的流程。整体流程如下:

demo1

使用图解

主账号使用方式:

打开公有云DataHub Console,选择对应的Project,点击右上角的“数据库实时导入”

a

如果没有DW项目,会默认创建一个“数据集成默认空间(di_${主账号ID})”

f

点击“新建导入任务”

新建MySQL数据源

g

新建独享数据集成资源组后进行连通性测试

下一步配置同步来源和规则

下一步设置目标Topic

完成配置,开始执行

子账号使用方式:

授权后,打开公有云DataHub Console,选择对应的Project,即可按照主账号的方式来操作;如果子账号没有DataWorks项目,则会创建“数据集成默认空间(di_${主账号Uid})”

子账号账号授权最佳实践:

如只允许访问子账号访问某个Project(test_ss)的自定义策略

{
  "Statement": [
    {
      "Action": [
        "dhs:ListProject",
        "dhs:InitializeDataImportProcess"
      ],
      "Effect": "Allow",
      "Resource": "acs:dhs:*:*:projects/*"
    },
    {
      "Action": [
        "dhs:GetProject"
      ],
      "Effect": "Allow",
      "Resource": "acs:dhs:*:*:projects/test_ss"
    },
    {
      "Action": [
        "dhs:*Topic",
        "dhs:*Shard",
        "dhs:*Subscription",
        "dhs:*Connector",
        "dhs:*Records"
      ],
      "Effect": "Allow",
      "Resource": "acs:dhs:*:*:projects/test_ss/topics/*"
    },
    {
      "Action": "ram:CreateServiceLinkedRole",
      "Resource": "*",
      "Effect": "Allow",
      "Condition": {
        "StringEquals": {
          "ram:ServiceName": [                      
                  "dwconnection.datahub.aliyuncs.com"
          ]
        }
      }
    }
  ],
  "Version": "1"
}