创建并管理数据源

若您想在DataWorks操作您的数据库或数据仓库(例如,MaxCompute项目数据),需先在DataWorks的数据源管理页面,将数据库或数据仓库创建为DataWorks的数据源,并将该数据源绑定至DataWorks相应的功能模块使用。例如,同步MaxCompute数据前,需先创建MaxCompute数据源,创建完成后可在数据集成模块选择该数据源,控制同步任务读取或写入的数据库或数据仓库。

背景信息

为了给您带来更为统一的产品使用体验,DataWorks于2023年10月20日开始逐步将MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL、ClickHouse计算引擎合并至数据源管理;将E-MapReduce(简称EMR)、CDH/CDP引擎合并至开源集群管理。合并后,原计算引擎的相关操作(例如,创建、编辑)将通过数据源/开源集群界面执行。详情请参见DataWorks新版数据源公告

权限控制

仅拥有运维空间管理员角色的空间成员,以及拥有AliyunDataWorksFullAccessAdministratorAccess权限策略的RAM角色可创建数据源,授权详情请参见空间级模块权限管控为RAM用户授权

除上述权限外,部分数据源创建时还会存在其他权限控制,请根据界面提示进行授权。

数据源环境隔离

标准模式的工作空间支持数据源隔离功能。您可以分别创建开发环境和生产环境的数据源,使测试与生产调度操作的数据源隔离,以保护您的生产数据安全。详情请参见附录:数据源环境介绍

  • 开发环境的数据源:可在数据同步节点中选择,并在开发环境运行,但无法提交到生产环境或在生产环境运行。

  • 生产环境的数据源:无法在数据同步节点中选择,且只允许在生产环境使用。

支持的数据源类型

DataWorks目前支持的数据源类型请参见数据源列表。其中,主要用于调度任务使用的数据源为MaxComputeHologresAnalyticDB for PostgreSQLAnalyticDB for MySQL3.0ClickHouseEMRCDH/CDP

说明
  • 对于CDH/CDP、EMR集群:

    • 如需使用集群的某个组件(例如,Hive),则可在数据源管理页面单独将该组件创建为相应数据源。

    • 如需在DataWorks上调度集群任务,则要将整个集群注册到DataWorks中。详情请参见注册EMR集群至DataWorks注册CDH/CDP集群

  • DataWorks不同功能模块可使用的数据源存在差异,具体请以实际界面为准。

创建数据源

  1. 进入管理中心页面。

    登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的管理中心,在下拉框中选择对应工作空间后单击进入管理中心

  2. 单击左侧导航栏的数据源,进入数据源管理页面。

  3. 在数据源管理页面,您可根据需要选择创建单个数据源批量创建数据源

    说明

    DataWorks支持创建的数据源请参见支持的数据源类型

    创建单个数据源

    1. 单击新增数据源,选择需要创建的数据源类型并配置数据源信息。不同数据源的配置存在差异,详细的配置参数解释可在配置界面查看对应参数的文案提示。

    2. (可选)测试资源组连通性。

      连接配置区域,找到工作空间绑定的资源组,单击连通状态列的测试连通性

      说明

      资源组的详细介绍,请参见DataWorks资源组概述

      • 如果显示可连通,则单击完成

      • 如果显示无法连通,表示资源组与数据源无法连通,后续相应数据源任务将无法正常执行。

        您需要根据右侧弹出的连通性诊断工具窗口,自助解决连通性问题,如果连通性诊断工具未给出具体解决办法,请检查您设置的账号、密码、连接地址等参数,以及确保将资源组的IP地址加入到数据源的白名单中。更多信息,请参见网络连通

    批量创建数据源

    单击批量新增数据源,按如下步骤选择需要创建的数据源类型并配置数据源信息。目前仅支持批量创建MySQL、PolarDB、SQLServer和Oracle数据源。

    1. 选择相应数据源并下载该数据源的配置信息模板。

      创建数据源的方式不同(连接串模式实例模式),则模板配置信息不同,具体请以实际界面为准。

    2. 根据模板格式填写数据源信息。

    3. 填写完后上传模板文件并启动创建数据源。

      创建数据源时,您可根据界面文本框的提示,查看数据源的创建进度及详情。若创建失败,请基于相应报错解决处理。

说明
  • DataWorks支持通过连接串模式实例模式创建数据源,不同创建方式的配置信息存在差异,请根据需要选择。

    当使用连接串模式配置数据源时,DataWorks会对数据源的JDBC URL进行解析。若JDBC URL中包含DataWorks暂不支持的参数,DataWorks会将该参数移除。若您希望在JDBC URL中继续使用DataWorks不支持的参数,则请提交工单联系技术支持人员咨询。

  • 同一个数据源名称可分别配置开发环境数据源、生产环境数据源,且不同环境的数据源配置是相互独立的。

管理数据源

在数据源管理页面,您可根据数据源类型数据源名称筛选需要查看的数据源。同时,支持您对目标数据源执行如下管理操作:image.png

  • 编辑:可根据需要修改数据源的配置信息。数据源的名称及适用环境无法更改。

  • 删除:可根据需要删除无需使用的数据源,删除数据源对DataWorks不同模块功能的影响如下。

    说明

    若数据源已授权跨工作空间的用户使用,则删除数据源后,跨工作空间使用该数据源的任务会执行失败。

    • 数据集成模块的影响。

      删除不同环境数据源

      操作影响

      删除数据源前的处理方案

      开发环境和生产环境

      需确认是否存在生产环境关联的同步任务,操作不可逆。若此数据源配置的同步任务已在生产环境使用,删除后:

      • 生产环境的任务将无法正常运行。请删除同步任务后再删除此数据源。

      • 在开发环境配置同步任务时此数据源不可见。

      通过批量操作修改任务数据源,并重新提交、发布任务。

      仅开发环境

      需确认是否存在生产环境关联的同步任务,操作不可逆。若此数据源配置的同步任务已在生产环境使用,删除后:

      • 生产环境的任务可以正常运行,但任务编辑时将不能获取到元数据信息。

      • 在开发环境配置同步任务时此数据源不可见。

      仅生产环境

      需确认是否存在生产环境关联的同步任务。若此数据源配置的同步任务已在生产环境使用,删除后:

      • 生产环境的任务无法正常运行。请删除同步任务后再删除此数据源。

      • 在开发环境使用此数据源配置的同步任务时,该任务将不能提交生产发布。

    • 其他模块的影响。

      功能模块

      操作风险等级

      操作影响

      相关任务

      删除数据源前的处理方案

      运维中心

      导致相关任务运行失败。

      通过批量操作修改任务归属数据源,并重新提交、发布任务。

      数据服务API

      导致相关任务调用失败。

      更换数据服务API数据源。

      数据分析

      导致相关任务查询失败。

      通过数据分析执行的查询任务。

      更换SQL查询数据源。

      数据质量

      导致相关任务检查异常。

      已配置数据质量监控规则的任务,详情请参见查看质量监控执行详情

      前往运维中心,将任务与DQC规则取消关联。详情请参见管理周期任务

  • 克隆:可通过克隆功能,快速生成一个与当前数据源配置信息相同的新数据源。

    说明

    新数据源的名称需要重新定义,不能与当前数据源名称相同。

  • 权限管理:您可通过数据源的权限管理功能,授权其他工作空间下的某用户使用当前数据源。授权后,该用户拥有数据源的查看及使用权限,但无法编辑数据源。详情请参见管理数据源权限

    说明

    若授权某个工作空间拥有数据源权限,则工作空间中的所有成员均拥有该数据源的查看及使用权限。

附录:数据源环境介绍

标准模式工作空间下,同一个名称的数据源存在开发环境和生产环境两套配置,两套配置可对应底层两个数据库/数据仓库,针对不同环境您可设置不同的数据源信息,使测试与生产调度操作的数据源隔离,以保护生产数据的安全。例如,执行离线同步任务时,可由运行环境控制任务所访问的数据库地址(配置生产、开发数据源对应不同数据库),使开发环境和生产环境的数据隔离。

说明

示例

标准模式工作空间中,任务在不同环境执行时所访问的数据源如下:

  • 在数据开发(DataStudio)模块与开发环境运维中心执行,默认访问开发环境的数据源。

  • 在生产环境运维中心执行,默认访问生产环境的数据源。

说明
  • 配置数据源时,请确认开发环境、生产环境的数据源分别对应的数据库/数据仓库是否符合业务现状。当开发环境和生产环境数据源的配置不同时(例如,数据库账号密码不同),可能出现如下问题:

    • 任务在数据开发(DataStudio)执行成功,在生产调度时执行失败。

    • 任务在数据开发(DataStudio)与在生产调度执行时产生的数据量不一致。

    上述问题您可对比开发环境与生产环境的运行日志排查解决。

  • 若数据源开发环境与生产环境配置不同,请确保任务运行时使用的资源组可分别与开发环境、生产环境的数据源连通。