宣传大数据平台的文章-宣传大数据平台的文章文档介绍内容-阿里云

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

什么是阿里云Cloudera CDP

企业数据云平台Cloudera Data Platform（简称阿里云CDP），是阿里云和Cloudera联合打造的阿里云上的大数据平台。Cloudera CDP企业数据云平台 Cloudera企业数据云是社区版CDH的全新商业化升级产品，是阿里云和Cloudera联合打造阿里云上的大...

什么是EMR on ACK

阿里云E-MapReduce（简称EMR）on ACK提供了全新构建大数据平台的方式。您可以将开源大数据服务部署在阿里云容器服务Kubernetes版（ACK）之上，利用ACK在服务部署和容器应用管理的优势，减少对底层集群资源的运维投入，以便于您可以更加专注...

典型场景

基于湖构建数据平台，支持BI、挖掘等业务对象存储OSS可以作为湖存储，DLA基于OSS构建一站式的大数据平台。具体包括构建数据湖、数据ETL、交互式查询、机器学习等功能。构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建...

面临的业务挑战

此外，大数据平台的组合方案在细粒度的访问权限控制、高可靠性方面，特别对于金融等行业客户的数据容灾、高可用的需求无法很好支持。使用成本高数据在企业中的使用，具有明显的周期性和不确定性。一方面，业务发展变化很快，其数据规模...

开通DataWorks服务

背景信息为帮助您快速体验大数据平台的核心场景，每个地域首次开通DataWorks时，平台默认自动在相应地域为您开通MaxCompute按量付费产品（该产品不使用则不收费），并创建服务关联角色 AliyunServiceRoleForDataWorksEngine、...

基于MaxCompute进行大数据BI分析

通过MaxCompute、AnalyticDB MySQL强大的数据加工和分析能力，降低大数据平台建设的门槛，轻松解决了海量数据的计算问题。同时有效降低企业成本，并保障数据安全。与第三方开源生态无缝对接，在不侵入用户应用的情况下，传输日志至日志服务...

产品概述

产品描述 Dataphin是集产品、技术、方法论于一体的智能大数据平台建设引擎，为您提供数据引入、规范定义、建模研发、资产管理、数据服务等全链路智能数据建设及治理服务。功能描述 Dataphin全托管全托管又称公共云多租户模式，只需购买...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

E-MapReduce本地盘实例大规模数据集测试

大数据基准测试用于公平、客观评测不同大数据产品/平台的功能和性能，对用户选择合适的大数据平台产品具有重要的参考价值，TPC-DS逐渐成为了业界公认的大数据系统测试基准。本文以阿里云E-MapReduce+D1本地盘方案模拟TPC-DS测试的演示方案...

发展历程

2013年8月，平台的单集群规模已达到5000台。2014年7月，平台开始对外提供服务，完全替换开源体系。2015~2018年，平台开始日趋成熟，ODPS更名为MaxCompute。单集群已过万台，性能再优化，实现了全球部署。2018~2022年，MaxCompute 3.0发布，...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

在大数据平台中集成Tair

本文介绍如何在不同大数据分析平台中接入云原生内存数据库Tair。常见大数据分析平台集成 Tair 的方法如下：大数据开发治理平台DataWorks：请参见配置Redis Writer插件。说明 Tair 完全兼容Redis，您可以参考该文档配置 Tair 实例信息，但...

互联网、电商行业离线大数据分析

通过阿里云MaxCompute、云数据库RDS MySQL、DataWorks等产品，可以实现互联网、电商网站的离线数据分析，且支持通过DataV大屏展示分析后的业务指标数据。概述电商网站的销售数据通过大数据进行分析后，可以在大屏幕展示销售指标、客户指标...

准备工作

开通企业数据智能平台企业数据智能平台默认为关闭状态，使用前需要前往 AnalyticDB PostgreSQL版控制台开通。登录云原生数据仓库AnalyticDB PostgreSQL版控制台。在控制台左上角，选择实例所在地域。单击左侧导航栏中的 数据平台。单击 ...

EMR Studio概述

EMR Studio是E-MapReduce提供的开源大数据开发套件，包含Apache Zeppelin、Jupyter Notebook和Apache Airflow等开源组件。能够无缝关联EMR集群（EMR on ECS和EMR on ACK）的计算引擎提交任务，并提供了交互式开发、任务调度和任务监控等...

实现开发生产等多套环境隔离

使用DataWorks进行大数据开发时，支持对开发、测试、生产等环境进行隔离，当您联合使用了其他阿里云产品时，也可根据环境隔离诉求进行对应业务的环境设置与隔离，本文以DataWorks联合EMR、OSS等产品为例，为您介绍如何实现开发生产等多套...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce（简称EMR），是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

产品简介

开源大数据开发平台E-MapReduce（简称EMR）是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark，让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

集成与开发概览

数据同步功能帮助您实现数据源之间的数据实时同步，适用于数据异地多活、数据异地灾备、本地数据灾备、跨境数据同步、云BI及实时数据仓库等多种业务场景。离线集成。更多信息，请参见离线集成概述。离线集成是一种低代码的数据开发工具，...

数据仓库研发规范概述

在大数据时代，规范地进行数据资产管理已成为推动互联网、大数据、人工智能和实体经济深度融合的必要条件。贴近业务属性、兼顾研发各阶段要点的研发规范，可以切实提高研发效率，保障数据研发工作有条不紊地运作。而不完善的研发流程，会...

EMR Workbench

阿里云EMR Workbench是一个综合性的大数据分析和开发环境，作为阿里云E-MapReduce的一部分，它提供了EMR Notebook和EMR Workflow两个核心功能。通过EMR Workbench，您可以轻松进行数据开发，以及交互式数据分析，并设计复杂的数据处理工作...

JindoFS介绍和使用

JindoFS是基于阿里云对象存储OSS，为开源大数据生态构建的Hadoop兼容文件系统（Hadoop Compatible File System，HCFS）。JindoFS提供兼容对象存储的纯客户端模式（SDK）和缓存模式（Cache），以支持与优化Hadoop和Spark生态大数据计算对OSS...

解决方案

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

Spark概述

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

功能简介

数据资源平台中的数据标准、数据模型、数据加工场景、数据服务API、云计算资源配置等资产，经过验证最终可沉淀为一个特定的解决方案。支持通过不同的创建方式，灵活的选择解决方案中包含的内容。依托数据资源平台中管理的大量元数据，确保...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎，为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起，DataWorks不断沉淀阿里巴巴大数据建设方法论，支撑数据中台建设，同时与...

选型配置说明

HDFS、YARN、Hive、Spark、Presto、Impala、JindoData、DeltaLake、Hudi、Iceberg、OpenLDAP、Knox、Kyuubi等 Dataflow 实时数据流场景，其中核心组件Flink是阿里云提供的基于Apache Flink和E-MapReduce Hadoop构建的企业级大数据计算平台...

管理Databases

本文为您介绍如何在阿里云Milvus中有效地管理Databases（数据库），其操作方式与传统数据库引擎类似。您不仅能够在阿里云Milvus中创建多个Databases，还能够对这些Databases进行精细化权限控制，将其授权给指定的用户进行管理。前提条件已...

DataWorks On EMR使用说明

类别描述相关文档 OpenAPI DataWorks开放平台的OpenAPI功能，为您提供开放API能力，通过开放API实现本地服务和DataWorks服务的交互，提升企业大数据处理效率，减少人工操作和运维工作，降低数据风险和企业成本。开放API（OpenAPI）开放...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

HDFS概述

HDFS（Hadoop Distributed File System）是一种Hadoop分布式文件系统，具备高度容错特性，支持高吞吐量数据访问，可以在处理海量数据（TB或PB级别以上）的同时最大可能的降低成本。HDFS适用于大规模数据的分布式读写，特别是读多写少的场景...

Amazon Redshift数据源

Amazon Redshift数据源为您提供读取和写入Amazon Redshift的双向通道，方便您后续可以通过向导模式和脚本模式配置数据同步任务。本文为您介绍Amazon Redshift数据同步能力支持情况。支持的Amazon Redshift版本 Amazon Redshift使用的驱动...

离线同步并发和限流之间的关系

在一些数据同步场景，脏数据的出现会导致任务同步效率下降，以关系数据库写出为例，默认是执行batch批量写出模式，在遇到脏数据时会退化为单条写出模式（以找出batch批次数据具体哪一条是脏数据，保障正常数据正常写出），但单条写出效率会...

SelectDB数据源

DataWorks数据集成支持使用SelectDB Writer导入表数据至SelectDB。本文为您介绍DataWorks的SelectDB数据同步能力支持情况。支持的SelectDB版本 SelectDB Writer使用的驱动版本是MySQL Driver5.1.47，驱动能力详情请参见 MySQL Connectors。...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

SQL查询

工作空间已配置数据源：DataWorks的数据源分为引擎绑定时默认创建的引擎数据源和在数据源配置界面创建的自建数据源，若要操作非引擎数据源，请确保已创建数据源，详情请参见创建并管理数据源。已拥有某数据源在数据分析模块的查询权限：...

DataHub数据源

DataHub数据源作为数据中枢，为您提供读取和写入DataHub数据库的双向通道，能够快速解决海量数据的计算问题。本文为您介绍DataWorks的DataHub数据同步的能力支持情况。支持的版本 DataHub Reader通过DataHub的Java SDK读取DataHub中的数据...

准备数据

在数据准备阶段，您需要同步原始数据至MaxCompute。前提条件已完成准备环境。已新增MaxCompute数据源。详情请参见创建MaxCompute数据源。准备数据源通过RDS创建MySQL实例，获取RDS实例ID。详情请参见快速创建RDS MySQL实例。在RDS控制...

宣传大数据平台的文章

新品推荐