DataWorks可以通过免费传输能力(默认任务资源组)进行海量数据上云,但默认资源组无法实现传输速度存在较高要求或复杂环境中的数据源同步上云的需求。您可以新增自定义资源组运行数据同步任务,解决DataWorks默认资源组与您的数据源不通的问题,或实现更高速度的传输能力。

项目管理员可以在数据集成 > 自定义资源组页面新增或修改自定义资源组。

当默认任务资源无法与您的复杂的网络环境连通时,可以通过数据集成自定义资源的部署,打通任意网络环境之间的数据传输同步,详情请参见(一端不通)数据源网络不通的情况下的数据同步(两端不通)数据源网络不通的情况下的数据同步

说明
  • 您在数据集成 > 自定义资源组页面添加的自定义资源组,只能给当前工作空间作为数据同步资源组使用,不会显示在调度资源列表。目前,该页面添加的自定义资源组不支持手动业务流程的数据同步节点。
  • 1台机器只能添加1个自定义资源组,每个自定义资源组只能选择1种网络类型。
  • 注册服务器时,只有华东2可以选择经典网络的方式注册(输入主机名),建议您优先使用专有网络VPC。其它区域只能选择专有网络方式注册(输入UUID)。
  • 自定义资源组上运行的部分文件需要Admin权限。例如,在您自己写的Shell脚本任务中调用自定义ECS上的Shell文件、SQL文件等。
  • 调度资源组主要用于调度任务,资源有限,不适合用来完成计算任务,所以不推荐在调度资源组上安装数据处理模块。MaxCompute具有海量数据处理能力,推荐您通过MaxCompute进行大数据计算。

使用限制

  • 自定义资源组所在的ECS服务器的时间与当前互联网时间差必须在2分钟之内,否则会导致部署的自定义资源组服务请求接口超时服务异常,无法执行任务。
  • 如果您发现alisatasknode日志中有超时报错信息response code is not 200,通常是因为某个时段访问服务接口不稳定的异常导致。只要不是持续10分钟异常,自定义资源组服务器就依然可以正常服务。您可以查看日志/home/admin/alisatasknode/logs/heartbeat.log进行确认。

购买云服务器ECS

购买ECS云服务器的具体操作请参见购买ECS云服务器
说明
  • 使用CentOS 6、CentOS 7或Aliyun OS。
  • 如果您添加的ECS需要执行MaxCompute任务或同步任务,需要检查当前ECS的Python版本是否是Python2.6或2.7(CentOS 5的版本为Python 2.4,其它OS自带Python 2.6以上版本)。
  • 请确保ECS有访问公网能力,您可将是否ping通www.aliyun.com作为衡量标准。
  • 建议ECS的配置为8核16G。

查看ECS主机名和内网IP地址

您可以进入云服务器ECS > 实例页面,查看购买的ECS主机名和IP。查看ECS

开通8000端口,以便读取日志

说明 如果您的ECS是VPC专有网络类型,则无需开通8000端口。下述步骤仅适用于经典网络。
  1. 添加安全组规则

    进入云服务器ECS > 网络和安全 > 安全组页面,单击相应安全组后的配置规则

  2. 安全组规则 > 入方向页面,单击右上角的添加安全组规则
  3. 设置添加安全组规则对话框中的参数。配置IP为数据集成的固定IP,访问端口为8000。配置

新增自定义资源组

  1. 以项目管理员身份登录DataWorks控制台,单击相应工作空间后的进入数据集成
  2. 单击左侧导航栏中的自定义资源组,进入自定义资源组管理页面。
  3. 单击页面右上角的新增自定义资源组
    说明 目前该页面不显示默认资源组,仅显示您添加的自定义资源组。
  4. 新增自定义资源组对话框中,输入资源组名称,单击下一步
  5. 配置添加服务器对话框中的参数,单击下一步
    参数 描述
    网络类型 目前除上海区域支持经典网络外,其他区域仅支持专有网络
    服务器名称ECS UUID
    • 选择经典网络时,请输入服务器名称。登录ECS,执行hostname取返回值。
    • 选择专有网络时,请输入ECS UUID。登录ECS,执行dmidecode | grep UUID,取返回值。
    机器IP 请输入内网机器IP。
    机器CPU(核) 推荐的自定义资源组机器CPU配置至少为4核。
    机器内存(GB) 推荐的自定义资源组机器内存配置至少为8GB RAM和80GB磁盘。
    说明 填写专有网络下的ECS作为服务器时,请输入ECS的UUID作为服务器名称。登录到ECS机器执行dmidecode | grep UUID即可获取。

    例如执行dmidecode | grep UUID,返回结果是UUID: 713F4718-8446-4433-A8EC-6B5B62D7****,则对应的UUID为713F4718-8446-4433-A8EC-6B5B62D7****

  6. 安装Agent并初始化。
    如果是新添加的服务器,请进行下述操作:
    1. SSH登录ECS服务器,保持在root用户下。
    2. 执行下述命令:
      chown admin:admin /opt/taobao  //用于给admin用户授予/opt/taobao目录权限。
      wget https://alisaproxy.shuju.aliyun.com/install.sh --no-check-certificate
      sh install.sh --user_name=*****19d --password=****h1bm --enable_uuid=false
    3. 稍后在添加服务器页面,单击刷新,查看服务状态是否转为可用
    4. 开通服务器的8000端口。
      说明 如果执行install.sh过程中出错或需要重新执行,请在install.sh的同一个目录下执行rm –rf install.sh,删除已经生成的文件。然后执行install.sh。上面的初始化界面对于每个用户的命令都不一样,请根据自己的初始化界面执行相关命令。
执行完上述操作后,如果服务状态一直是停止,您可能碰到以下问题。停止
上图的错误原因是没有绑定host,请进行下述操作:
  1. 切换到admin账号。
  2. 执行hostname -i,查看host的绑定情况。
  3. 执行vim/etc/hosts,添加IP地址和主机名。
  4. 刷新页面服务状态,查看ECS服务器注册是否成功。
说明
  • 如果刷新后还是停止状态,您可以重启alisa。
    切换到admin账号,执行下述命令。
    /home/admin/alisatasknode/target/alisatasknode/bin/serverctl restart
  • 命令中涉及到您的AK信息,请不要轻易泄露。

数据同步选择任务资源组

在数据同步任务中的通道控制选择任务资源组通道控制