DataWorks可通过免费传输能力(默认任务资源组),进行海量数据上云,但默认资源组无法实现传输速度存在较高要求或复杂环境中的数据源同步上云的需求。您可以新增自定义的任务资源运行数据同步任务,解决DataWorks默认资源组与您的数据源不通的问题,或实现更高速度的传输能力。

项目管理员可以在数据集成 > 同步资源管理 > 资源组页面新增或修改任务资源。

当默认任务资源无法与您的复杂的网络环境连通时,可通过数据集成自定义资源的部署,打通任意网络环境之间的数据传输同步,详情请参见(仅一端不通)数据源网络不通的情况下的数据同步(两端都不通)数据源网络不通的情况下的数据同步

说明
  • 您在数据集成 > 同步资源管理 > 资源组页面增加的任务资源,只能给当前工作空间作为数据同步资源组使用,不会显示在调度资源列表。目前该页面添加的任务资源不支持手动业务流程数据同步节点。
  • 添加自定义资源时一台机器只能添加一个自定义资源组,每个自定义资源组只能选择一种网络类型。
  • 注册服务器时,只有华东2可以选择经典网络的方式注册(输入主机名),建议您优先使用专有网络VPC。其他Region只能选择专有网络方式注册(输入UUID)。
  • 自定义资源组上运行的部分文件需要Admin权限。例如,在您自己写的Shell脚本任务中调用自定义ECS上的Shell文件、SQL文件等。
  • 因为调度资源组主要用于调度任务,资源有限,并不适合用来完成计算任务,所以不推荐在调度资源组上安装数据处理模块。MaxCompute具有海量数据处理能力,推荐您通过MaxCompute进行大数据计算。

购买云服务器ECS

购买ECS云服务器的具体操作请参见购买ECS云服务器
说明
  • 使用CentOS 6、CentOS 7或Aliyun OS。
  • 如果您添加的ECS需要执行MaxCompute任务或同步任务,需要检查当前ECS的Python版本是否是Python2.6或2.7(CentOS 5的版本为Python 2.4,其它OS自带Python 2.6以上版本)。
  • 请确保ECS有访问公网能力,您可将是否ping通www.aliyun.com作为衡量标准。
  • 建议ECS的配置为8核16G。

查看ECS主机名和内网IP地址

您可进入云服务器ECS > 实例页面,查看购买的ECS主机名和IP。

开通8000端口,以便读取日志

说明 如果您的ECS是VPC专有网络类型,则不需开通8000端口。下列步骤仅适用于经典网络。
  1. 添加安全组规则
    进入云服务器ECS > 网络和安全 > 安全组页面,单击配置规则,进入配置规则页面 。

  2. 进入安全组规则 > 内网入方向页面,单击右上角的添加安全组规则

  3. 填写添加安全组规则对话框中的配置信息,配置IP为数据集成的固定IP ,访问端口为8000。

新增任务资源

  1. 以开发者身份进入DataWorks管理控制台,单击对应工作空间操作栏中的进入数据集成
  2. 选择同步资源管理 > 资源组,单击新增自定义资源

  3. 单击下一步,在添加服务器对话框中,填写购买的ECS云服务器的主机IP等信息。

    配置 说明
    网络类型 目前除上海Region支持经典网络外,其他Region均只支持专有网络
    ECS UUID 登录ECS,执行dmidecode | grep UUID,取返回值。
    机器IP 请输入内网机器IP。
    机器CPU(核) 推荐的自定义资源组机器CPU配置至少为4核。
    机器内存(GB) 推荐的自定义资源组机器内存配置至少为8GB RAM和80GB磁盘。
    说明
    • 填写专有网络下的ECS作为服务器时,需要填写ECS的UUID作为服务器名称。登录到ECS机器执行dmidecode | grep UUID即可获取。
    • 例如执行dmidecode | grep UUID,返回结果是UUID: 713F4718-8446-4433-A8EC-6B5B62D7****,则对应的UUID为713F4718-8446-4433-A8EC-6B5B62D7****。
  4. 安装Agent并初始化。

    如果是新添加的服务器,请按照如下步骤进行操作。
    1. SSH登录ECS服务器,保持在root用户下。
    2. 执行下述命令:
      chown admin:admin /opt/taobao  //用于给admin用户授予/opt/taobao目录权限。
      wget https://alisaproxy.shuju.aliyun.com/install.sh --no-check-certificate
      sh install.sh --user_name=*****19d --password=****h1bm --enable_uuid=false
    3. 稍后在添加服务器页面,单击刷新,查看服务状态是否转为可用
    4. 开通服务器的8000端口。
      说明 如果执行install.sh过程中出错或需要重新执行,请在install.sh的同一个目录下执行rm –rf install.sh,删除已经生成的文件。然后执行install.sh。上面的初始化界面对于每个用户的命令都不一样,请根据自己的初始化界面执行相关命令。

执行完上述操作后,如果服务状态一直是停止,您可能碰到以下问题。

上图的错误原因是没有绑定host,请参见以下步骤进行修改。
  1. 切换到admin账号。
  2. 执行hostname -i,查看host的绑定情况。
  3. 执行vim/etc/hosts,添加IP地址和主机名。
  4. 刷新页面服务状态,查看ECS服务器注册是否成功。
说明
  • 如果刷新后还是停止状态,您可以重启alisa。
    切换到admin账号,执行下述命令。
    /home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart
  • 命令中涉及到您的AK信息,请不要轻易暴露给他人。

数据同步选择任务资源组

在数据同步任务中的通道控制选择任务资源组

使用限制

  • 自定义任务资源所在的ECS服务器的时间与当前互联网时间差必须在2分钟之内,否则会导致部署的自定义任务资源服务请求接口超时服务异常,无法执行任务。
  • 如果您发现alisatasknode日志中有超时报错信息response code is not 200,通常是因为某个时段访问服务接口不稳定的异常导致。只要不是持续10分钟异常,自定义资源组服务器就依然可以正常服务。您可以查阅日志/home/admin/alisatasknode/logs/heartbeat.log进行确认。