若您想在DataWorks操作您的数据库或数据仓库(例如,MaxCompute项目数据),需先在DataWorks的数据源管理页面,将数据库或数据仓库创建为DataWorks的数据源,并将该数据源绑定至DataWorks相应的功能模块使用。例如,同步MaxCompute数据前,需先创建MaxCompute数据源,创建完成后可在数据集成模块选择该数据源,控制同步任务读取或写入的数据库或数据仓库。
背景信息
为了给您带来更为统一的产品使用体验,DataWorks于2023年10月20日开始逐步将MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL、ClickHouse计算引擎合并至数据源管理;将E-MapReduce(简称EMR)、CDH/CDP引擎合并至开源集群管理。合并后,原计算引擎的相关操作(例如,创建、编辑)将通过数据源/开源集群界面执行。详情请参见DataWorks新版数据源公告。
权限控制
仅拥有运维或空间管理员角色的空间成员,以及拥有AliyunDataWorksFullAccess、AdministratorAccess权限策略的RAM角色可创建数据源,授权详情请参见空间级模块权限管控,为RAM用户授权。
除上述权限外,部分数据源创建时还会存在其他权限控制,请根据界面提示进行授权。
数据源环境隔离
标准模式的工作空间支持数据源隔离功能。您可以分别创建开发环境和生产环境的数据源,使测试与生产调度操作的数据源隔离,以保护您的生产数据安全。详情请参见附录:数据源环境介绍。
开发环境的数据源:可在数据同步节点中选择,并在开发环境运行,但无法提交到生产环境或在生产环境运行。
生产环境的数据源:无法在数据同步节点中选择,且只允许在生产环境使用。
支持的数据源类型
DataWorks目前支持的数据源类型请参见数据源列表。其中,主要用于调度任务使用的数据源为MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL3.0、ClickHouse、EMR、CDH/CDP。
对于CDH/CDP、EMR集群:
如需使用集群的某个组件(例如,Hive),则可在数据源管理页面单独将该组件创建为相应数据源。
如需在DataWorks上调度集群任务,则要将整个集群注册到DataWorks中。详情请参见注册EMR集群至DataWorks、注册CDH/CDP集群。
DataWorks不同功能模块可使用的数据源存在差异,具体请以实际界面为准。
创建数据源
进入管理中心页面。
登录DataWorks控制台,切换至目标地域后,单击左侧导航栏的 ,在下拉框中选择对应工作空间后单击进入管理中心。
单击左侧导航栏的
,进入数据源页面。在数据源页面,您可根据需要选择新增数据源或批量新增数据源:
说明DataWorks支持创建的数据源请参见支持的数据源类型。
创建单个数据源
单击新增数据源,选择需要创建的数据源类型并配置数据源信息。不同数据源的配置存在差异,详细的配置参数解释可在配置界面查看对应参数的文案提示。
(可选)测试资源组连通性。
在连接配置区域,找到工作空间绑定的资源组,单击连通状态列的测试连通性。
说明资源组的详细介绍,请参见DataWorks资源组概述。
如果显示可连通,则单击完成。
如果显示无法连通,表示资源组与数据源无法连通,后续相应数据源任务将无法正常执行。
您需要根据右侧弹出的连通性诊断工具窗口,自助解决连通性问题,如果连通性诊断工具未给出具体解决办法,请检查您设置的账号、密码、连接地址等参数,以及确保将资源组的IP地址加入到数据源的白名单中。更多信息,请参见网络连通。
批量创建数据源
单击批量新增数据源,按如下步骤选择需要创建的数据源类型并配置数据源信息。目前仅支持批量创建MySQL、PolarDB、SQLServer和Oracle数据源。
选择相应数据源并下载该数据源的配置信息模板。
创建数据源的方式不同(连接串模式或实例模式),则模板配置信息不同,具体请以实际界面为准。
根据模板格式填写数据源信息。
填写完后上传模板文件并启动创建数据源。
创建数据源时,您可根据界面文本框的提示,查看数据源的创建进度及详情。若创建失败,请基于相应报错解决处理。
DataWorks支持通过连接串模式或实例模式创建数据源,不同创建方式的配置信息存在差异,请根据需要选择。
当使用连接串模式配置数据源时,DataWorks会对数据源的JDBC URL进行解析。若JDBC URL中包含DataWorks暂不支持的参数,DataWorks会将该参数移除。若您希望在JDBC URL中继续使用DataWorks不支持的参数,则请提交工单联系技术支持人员咨询。
同一个数据源名称可分别配置开发环境数据源、生产环境数据源,且不同环境的数据源配置是相互独立的。
管理数据源
在数据源管理页面,您可根据数据源类型、数据源名称筛选需要查看的数据源。同时,支持您对目标数据源执行如下管理操作:
编辑:可根据需要修改数据源的配置信息。数据源的名称及适用环境无法更改。
删除:可根据需要删除无需使用的数据源,删除数据源对DataWorks不同模块功能的影响如下。
说明若数据源已授权跨工作空间的用户使用,则删除数据源后,跨工作空间使用该数据源的任务会执行失败。
对数据集成模块的影响。
删除不同环境数据源
操作影响
删除数据源前的处理方案
开发环境和生产环境
需确认是否存在生产环境关联的同步任务,操作不可逆。若此数据源配置的同步任务已在生产环境使用,删除后:
生产环境的任务将无法正常运行。请删除同步任务后再删除此数据源。
在开发环境配置同步任务时此数据源不可见。
通过批量操作修改任务数据源,并重新提交、发布任务。
仅开发环境
需确认是否存在生产环境关联的同步任务,操作不可逆。若此数据源配置的同步任务已在生产环境使用,删除后:
生产环境的任务可以正常运行,但任务编辑时将不能获取到元数据信息。
在开发环境配置同步任务时此数据源不可见。
仅生产环境
需确认是否存在生产环境关联的同步任务。若此数据源配置的同步任务已在生产环境使用,删除后:
生产环境的任务无法正常运行。请删除同步任务后再删除此数据源。
在开发环境使用此数据源配置的同步任务时,该任务将不能提交生产发布。
对其他模块的影响。
功能模块
操作风险等级
操作影响
相关任务
删除数据源前的处理方案
运维中心
高
导致相关任务运行失败。
通过批量操作修改任务归属数据源,并重新提交、发布任务。
数据服务API
高
导致相关任务调用失败。
更换数据服务API数据源。
数据分析
中
导致相关任务查询失败。
通过数据分析执行的查询任务。
更换SQL查询数据源。
数据质量
中
导致相关任务检查异常。
已配置数据质量监控规则的任务,详情请参见查看质量监控执行详情。
前往运维中心,将任务与DQC规则取消关联。详情请参见管理周期任务。
克隆:可通过克隆功能,快速生成一个与当前数据源配置信息相同的新数据源。
说明新数据源的名称需要重新定义,不能与当前数据源名称相同。
权限管理:您可通过数据源的权限管理功能,授权其他工作空间下的某用户使用当前数据源。授权后,该用户拥有数据源的查看及使用权限,但无法编辑数据源。详情请参见管理数据源权限。
说明若授权某个工作空间拥有数据源权限,则工作空间中的所有成员均拥有该数据源的查看及使用权限。
附录:数据源环境介绍
标准模式工作空间下,同一个名称的数据源存在开发环境和生产环境两套配置,这两套配置可对应底层两个数据库/数据仓库,针对不同环境您可设置不同的数据源信息,使测试与生产调度操作的数据源隔离,以保护生产数据的安全。例如,执行离线同步任务时,可由运行环境控制任务所访问的数据库地址(配置生产、开发数据源对应不同数据库),使开发环境和生产环境的数据隔离。
简单模式工作空间仅拥有一个环境,无法做到开发、生产隔离。关于工作空间模式的介绍,详情请参见必读:简单模式和标准模式的区别。
若简单模式升级为标准模式,会将原有的一个数据源拆分为生产环境和开发环境隔离的两个数据源。详情请参见场景:工作空间模式升级(简单模式升级标准模式)。
标准模式工作空间中,任务在不同环境执行时所访问的数据源如下:
在数据开发(DataStudio)模块与开发环境运维中心执行,默认访问开发环境的数据源。
在生产环境运维中心执行,默认访问生产环境的数据源。
配置数据源时,请确认开发环境、生产环境的数据源分别对应的数据库/数据仓库是否符合业务现状。当开发环境和生产环境数据源的配置不同时(例如,数据库账号密码不同),可能出现如下问题:
任务在数据开发(DataStudio)执行成功,在生产调度时执行失败。
任务在数据开发(DataStudio)与在生产调度执行时产生的数据量不一致。
上述问题您可对比开发环境与生产环境的运行日志排查解决。
若数据源开发环境与生产环境配置不同,请确保任务运行时使用的资源组可分别与开发环境、生产环境的数据源连通。