数据源用于连接各类数据库和存储服务(如MaxCompute、MySQL、OSS等),是数据集成同步任务的必备配置,决定任务读取(数据来源)和写入(数据去向)的数据库。
数据源的作用
在数据集成任务中,数据源扮演着数据流动两端的“端点”角色:
数据来源(Reader):数据集成任务从“来源”数据源读取数据。
数据去向(Writer):数据集成任务将处理后的数据写入“去向”数据源。
无论是单表或整库同步,还是离线或实时同步,都需要预先配置好来源和去向数据源。一个配置完整、网络通畅的数据源,是任务能够成功执行的前提。
支持的数据源类型
DataWorks数据集成目前支持的数据源可参考支持的数据源及同步方案。数据集成在使用不同的数据源配置任务时,集成配置上存在些许差异,具体请以实际页面为准。
创建数据源
管理中心和数据集成均可创建数据源,以下说明两者区别:
能力维度 | 管理中心创建(推荐) | 数据集成模块创建 |
管理位置 | 。 | 。 |
环境隔离 | 支持开发/生产环境独立配置,保障生产安全。 | 不支持,仅有生产环境。 |
多模块复用 | 可用于集成/开发/分析/等所有模块。 | 在其他模块使用时功能受限。 |
权限控制 | 可进行跨空间授权。 | 不支持授权功能。 |
适用模式 | 标准模式工作空间优选,企业级规范。 | 简单模式,或标准模式无需隔离的场景。 |
克隆能力 | 支持快速复制成新数据源。 | 不支持。 |
两种方式均支持第三方认证和通过RAM角色授权模式配置数据源。
两处创建数据源的操作步骤一致。
在管理中心创建数据源,会自动在数据集成侧创建的同名数据源,两者共享数据源的生产环境配置。
在数据集成创建数据源,也会自动在管理中心创建同名数据源。但该数据源仅具备生产环境信息,开发环境会显示信息缺失,需手动补全。
不同类型的数据源配置参数不同,详情见:数据源列表。
使用数据源
简单模式:
工作空间为简单模式时,仅有一个环境,使用管理中心创建的数据源和数据集成的数据源无差别。
标准模式:
标准模式的工作空间支持数据源环境隔离。同一个名称的数据源可存在开发环境和生产环境两套配置,设置两个不同的数据库/实例,使任务在测试和生产调度时操作的数据隔离,确保生产环境数据的安全。
数据集成模块中仅单表离线同步任务支持数据源开发、生产隔离,其他类型同步任务均使用生产环境数据源。
在数据集成侧创建的数据源仅含生产环境配置,开发环境信息缺失,导致数据开发中无法直接选用。需在管理中心补全开发环境配置后,方可在数据开发和单表离线同步中使用。
后续步骤
数据源配置完成,并且经过连通性测试后,您可以:
进入数据集成,配置同步任务:数据集成侧同步任务。
进入数据开发(Data Studio),配置单表同步任务:DataStudio侧离线同步、DataStudio侧实时同步。
常见问题
更多数据源的使用问题参见:数据集成常见问题。