大数据平台数据集成-大数据平台数据集成文档介绍内容-阿里云

在大数据平台中集成Tair

常见大数据分析平台集成 Tair 的方法如下：大数据开发治理平台DataWorks：请参见配置Redis Writer插件。说明 Tair 完全兼容Redis，您可以参考该文档配置 Tair 实例信息，但暂不支持接入 Tair 自研的扩展数据结构。实时计算Flink版：请参见...

Napatech案例

Lindorm支持海量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与各类大数据平台集成，完成数据的大规模离线分析。基于Lindorm的解决方案，用户在采用到100Gbps+流量产生的大量数据包元数据直接通过...

应用场景

大数据场景云数据库HBase支持海量全量数据的低成本存储、快速批量导入和实时访问，具备高效的增量及全量数据通道，可轻松与Spark、MaxCompute等大数据平台集成，完成数据的大规模离线分析。优势如下：低成本：高压缩比，数据冷热分离，...

MySQL分库分表同步至Hologres（方案2.0）

限流：考虑到速度过高可能对数据库造成过大的压力从而影响生产，数据集成同时提供了限速选项，您可以通过限流控制同步速率，从而保护读取端数据库，避免抽取速度过大，给数据库造成太大的压力。限速最小配置为1MB/S，最高上限为30MB/s。离...

收费常见问题

本文为您介绍数据集成收费相关问题及解决方案。数据集成是怎么收费的？数据集成收费包含三种途径，详情请参见独享数据集成资源组计费说明：包年包月、公共数据集成（调试）资源组：按量计费、公网流量计费说明。

日志服务通过数据集成投递数据

本文将以LogHub数据同步至MaxCompute为例，为您介绍如何通过数据集成功能同步LogHub数据至数据集成已支持的目的端数据源（例如MaxCompute、OSS、Tablestore、RDBMS和DataHub等）。前提条件准备好相关的数据源，详情请参见创建MaxCompute...

数据集成审批策略

数据集成审批策略支持管理员从DataWorks空间级别为数据集成任务的保存操作定义审批策略。本文为您介绍如何创建数据集成审批策略。背景信息支持管理员按源端、目的端数据源的组合来定义需要被审批的数据集成任务，包括：在数据集成或数据...

UpdateDISyncTask

调用UpdateDISyncTask更新数据集成同步任务。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String 是 ...

CreateDISyncTask

调用CreateDISyncTask创建数据集成同步任务。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String 是 ...

TerminateDISyncInstance

下线数据集成实时同步任务。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String 是 ...

通过数据集成导入数据至Elasticsearch

本文为您介绍如何通过数据集成导入离线Elasticsearch数据。前提条件准备阿里云账号，并创建账号的访问密钥。详情请参见开通DataWorks服务。开通MaxCompute，自动产生一个默认的MaxCompute数据源，并使用主账号登录DataWorks。创建工作...

计费方式

运行数据集成任务会产生DataWorks相关费用，此外还可能其他产品费用，具体如下：DataWorks相关收费 数据集成资源组（独享数据集成资源组计费说明：包年包月，如果使用公共数据集成（调试）资源组：按量计费，则还包括公共数据集成资源组...

DataWorks公共数据集成（调试）资源组下线公告

已经配置了DataWorks公共数据集成资源组的任务可继续正常运行，但不能对这些任务进行修改，若您需修改这些任务，请于 2024年4月1日前切换为 DataWorks独享数据集成资源组。2024年9月1日起，DataWorks公共数据集成资源组不再提供服务，...

DeleteDISyncTask

调用DeleteDISyncTask接口，删除数据集成同步任务。当前仅支持使用该接口删除实时数据同步任务。如果您希望删除离线数据同步任务，请使用DeleteFile接口，具体操作流程请参考删除同步任务。调试您可以在OpenAPI Explorer中直接运行该接口...

Kafka单表实时入湖OSS（HUDI）

本文以Kafka实时入湖写入至OSS场景为例，为您介绍如何通过数据集成实时入湖。使用限制 Kafka的版本需要大于等于0.10.2小于等于2.2.0。本实践仅支持使用独享数据集成资源组。准备独享数据集成资源组并与数据源网络连通在进行数据同步前，...

专有网络VPC的数据源连通独享数据集成资源组

本文以阿里云RDS数据库为例，为您介绍专有网络VPC的数据源如何连通独享数据集成资源组。前提条件购买RDS MySQL实例。本文以购买MySQL 5.7版本的MySQL实例为例，您可以根据业务需求进行配置。详情请参见快速创建RDS MySQL实例。在目标实例...

离线同步写入MongoDB数据

DataWorks的数据集成为您提供MongoDB Writer插件，可从其他数据源中读取数据，并将数据同步至MongoDB。本文以一个具体的示例，为您演示如何通过数据集成将MaxCompute的数据离线同步至MongoDB。前提条件本实践进行操作时，需满足以下条件。...

数据集成概述

数据集成是稳定高效、弹性伸缩的数据同步平台，致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。使用限制数据同步：支持且仅支持结构化（例如RDS、DRDS等）、半结构化、无结构化（OSS、TXT等，要求具体同步...

配置资源组与网络连通

在数据同步任务配置前，您需要确保用于执行同步任务的独享数据集成资源组与您将要同步的数据来源端与目的端数据库的网络连通性，您可以根据数据库所在网络环境，选择合适的网络解决方案来实现网络连通。本文为您介绍数据库在不同网络环境中...

公共数据集成（调试）资源组：按量计费

公共数据集成（调试）资源组是DataWorks提供的公共资源组的一种，计费方式为按量计费。本文为您介绍公共数据集成（调试）资源组的按量计费详情。背景信息所有阿里云DataWorks用户共享使用公共数据集成（调试）资源组资源，使用高峰期可能...

实时同步字段格式

本文为您介绍数据集成实时同步字段的格式及附加列。数据集成实时同步MySQL或Oracle数据的记录格式如下。sequence_id_operation_type_execute_time_before_image_after_image_字段1 字段2 字段3 增量事件的记录 ID，值唯一且递增。操作类型...

离线同步读取MongoDB数据

DataWorks的数据集成为您提供MongoDB Reader插件，可从MongoDB中读取数据，并将数据同步至其他数据源。本文以一个具体的示例，为您演示如何通过数据集成将MongoDB的数据离线同步至MaxCompute。背景信息本实践的来源数据源为MongoDB，去向...

数据集成

数据源支持情况 数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

DataWorks数据集成服务关联角色

数据集成支持RAM角色授权模式。本文为您介绍如何获取DataWorks数据集成相关的RAM角色列表、删除服务关联角色，以及子账号如何创建服务关联角色所需要的权限。应用场景当您通过RAM角色授权模式创建DataWorks数据源时，请选择相关的自定义...

GenerateDISyncTaskConfigForUpdating

DataWorks目前仅支持直接使用 UpdateDISyncTask 接口更新数据集成离线同步任务，而数据集成实时同步任务和解决方案同步任务则需要先调用GenerateDISyncTaskConfigForUpdating和 QueryDISyncTaskConfigProcessResult 接口，异步生成更新数据...

GenerateDISyncTaskConfigForCreating

DataWorks目前仅支持直接使用 CreateDISyncTask 接口创建数据集成离线同步任务，而数据集成实时同步任务和其他同步类型的任务则需要先调用 GenerateDISyncTaskConfigForCreating 和 QueryDISyncTaskConfigProcessResult 接口，获取异步生成...

DataHub通过数据集成批量导入数据

本文以Stream同步数据至DataHub的脚本模式为例，为您介绍如何通过数据集成导入离线DataHub数据。前提条件准备阿里云账号，并创建账号的访问密钥。详情请参见开通DataWorks服务。开通MaxCompute，自动产生一个默认的MaxCompute数据源，并...

新增和使用独享数据集成资源组

您可以使用DataWorks独享数据集成资源组功能，为数据集成同步任务分配独立的计算资源，从而提高任务的执行效率和稳定性。购买独享资源组后，在实际使用前您还需进行网络绑定、白名单等配置操作。本文为您介绍从购买至使用独享数据集成资源...

UpdateDIProjectConfig

调用UpdateDIProjectConfig修改当前工作空间中数据集成同步解决方案任务默认的全局配置。当前DataWorks仅支持为同步解决方案任务中的实时同步DDL消息处理策略设置默认的全局配置。如果您的同步解决方案任务包含实时同步任务，则配置 DDL...

数据集成：全领域数据汇聚

DataWorks的数据集成功能模块是稳定高效、弹性伸缩的数据同步平台，致力于提供复杂网络环境下、丰富的异构数据源之间高速稳定的数据移动及同步能力。功能概述 DataWorks数据集成支持离线同步、实时同步，以及离线和实时一体化的全增量同步...

ListDIProjectConfig

调用ListDIProjectConfig查看当前工作空间中数据集成同步解决方案任务默认的全局配置。当前DataWorks仅支持为同步解决方案任务中的实时同步DDL消息处理策略设置默认的全局配置。如果您的同步解决方案任务包含实时同步任务，则配置 DDL消息...

GetDISyncTask

获取数据集成实时同步任务和同步解决方案的详情。调试您可以在OpenAPI Explorer中直接运行该接口，免去您计算签名的困扰。运行成功后，OpenAPI Explorer可以自动生成SDK代码示例。请求参数名称类型是否必选示例值描述 Action String ...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

QueryDISyncTaskConfigProcessResult

调用QueryDISyncTaskConfigProcessResult接口，通过异步线程ID，获取异步生成创建或更新数据集成同步任务需要的参数。DataWorks目前仅支持直接使用 CreateDISyncTask 接口创建或 UpdateDISyncTask 接口更新数据集成离线同步任务，而数据...

实时同步常见问题

实时同步字段格式问题 数据集成实时同步在同步MySQL、Oracle、Loghub和PolarDB类型的数据至DataHub或Kafka时，会在同步的目标端添加5个附加列，以进行元数据管理、排序去重等操作。详情请参见实时同步字段格式。为什么实时同步任务延迟较...

发展历程

关键性里程碑 2009年9月，ODPS（即现在的MaxCompute）大数据平台飞天项目正式启动。2010年10月，阿里巴巴集团自主研发的第一代云计算平台稳定运行。2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

客户案例

价值体现从大数据平台上云整体“降本增效”的方案快速切入，迁移到大数据MaxCompute、实时计算、DataWorks后，部分任务有10倍以上的性能提升，存储从自建Hadoop 3PB降到900T，利用Flink实时数据处理能力，将宝宝树现有的场景实时化（...

独享数据集成资源组计费说明：包年包月

本文为您介绍独享数据集成资源组的性能指标和计费标准。性能指标规格离线同步最大并发线程数 4c8g 8 8c16g 16 12c24g 24 16c32g 32 24c48g 48 规格单任务建议需要的资源规格 MySQL来源实时同步数据库数1 4c8g MySQL来源实时同步数据库数...

MySQL分库分表同步至Hologres（方案1.0）

本文以MySQL分库分表实时写入Hologres场景为例，为您介绍如何通过数据集成同步分库分表数据至Hologres。前提条件已完成Hologres和MySql数据源配置。您需要将数据库添加至DataWorks上，以便在同步任务配置时，可通过选择数据源名称来控制...

大数据平台 数据集成

新品推荐

大数据平台数据集成