大数据计算框架与平台-大数据计算框架与平台文档介绍内容-阿里云

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

计算设置概述

计算引擎说明操作文档离线计算引擎 MaxCompute 阿里原生的大数据计算平台，承载海量数据存储与计算能力，高效率与高稳定性。设置Dataphin实例的计算引擎为MaxCompute AnalyticDB for PostgreSQL 专注于OLAP领域的分析型数据库，是云端...

计算设置概述

计算引擎说明操作文档离线计算引擎 MaxCompute 阿里原生的大数据计算平台，承载海量数据存储与计算能力，高效率与高稳定性。设置Dataphin实例的计算引擎为MaxCompute 实时计算引擎阿里云实时计算Flink 阿里云新一代计算引擎Flink，支持...

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...

查看账单详情

上图中，产品明细说明如下：大数据计算服务MaxCompute（按量付费）、消费类型为后付费：指当日该账号开通MaxCompute按量付费标准版、开发者版中所有按量付费账单的汇总，包括存储、计算、公网下载的按量计费账单。大数据计算服务...

RDS搭配大数据计算服务实现大规模数据计算

本文介绍RDS MySQL如何结合大数据计算服务MaxCompute使用。开放数据处理服务又称为大数据计算服务（MaxCompute，原名ODPS），可服务于批量结构化数据的存储和计算，提供海量数据仓库解决方案以及针对大数据的分析建模服务。通过数据集成 ...

关于我们

国家标准《个人信息去标识化效果分级评估规范》国家标准《信息安全技术多方数据融合计算安全指南》行业标准《基于安全多方计算的数据计算平台技术要求与测试方法》行业标准《基于可信执行环境的数据计算平台技术要求与测试方法》行业标准...

购买指引

其他产品计费：大数据引擎的计算与存储等费用不包含在DataWorks的费用中，例如，您还开通使用了 MaxCompute、Hologres、E-MapReduce 等计算引擎或存储产品，这类产品的费用需参考对应产品的计费逻辑。进入 DataWorks售卖页即可购买所需...

Kyuubi概述

使用场景交互式分析：利用Kyuubi可以构建企业级分析平台，用于对大数据进行交互式可视化分析，支持常见的计算框架。Kyuubi支持JDBC和ODBC接口，您可以直接通过SQL或通过BI工具来访问Kyuubi并高效地运行查询。Kyuubi可以在用户级别缓存后台...

项目分配与安全

在为企业级大数据平台创建项目时，建议您对ODS层、DWD及DWS层的数据按照业务板块的粒度建立项目，对于ADS层的数据，按照应用的粒度建立项目。项目分配在本教程中，建议参考下图建立您的MaxCompute项目，图中的每一个方块代表一个项目。...

什么是交通云控平台

开放能力交通云控平台的开放性主要体现在以下四个层面：大数据计算能力开放交通云控平台提供一整套支撑开发的数据计算能力与计算架构，提供安全、高可用、弹性的高性能计算平台。Blink MaxCompute DataHub Apsara RDS AnalyticDB ECS....

产品架构

计算资源包括云原生资源（灵骏计算资源和通用计算资源）和大数据引擎资源（MaxCompute和Flink）。平台工具层（灵骏智算服务&人工智能框架）：人工智能框架：包括Alink、TensorFlow、PyTorch、Megatron、DeepSpeed及RLHF等智能框架，用于...

快速体验

大数据存储与计算：云原生大数据计算服务 MaxCompute（必选）、实时数仓Hologres（可选）、开源大数据平台E-MapReduce（可选），您可根据需要开通MaxCompute、Hologres或E-MapReduce。数据开发与调度：大数据开发治理平台 DataWorks数据...

如何对JSON类型进行高效分析

针对海量半结构化数据计算与分析，本文将以半结构化数据JSON为例，首先简述传统数据库与数据仓库的解决方案，然后详细描述 PolarDB IMCI列式JSON、虚拟列、秒级加减列与表列数扩展等技术点，最后给出 PolarDB IMCI列式JSON实时分析与扩展流...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

什么是人工智能平台PAI

千亿级特征样本的大规模并行计算框架Parameter Server。Spark、PySpark、MapReduce等业内主流开源框架。PAI提供的服务：可视化建模和分布式训练Designer，详情请参见可视化建模（Designer）。Notebook交互式AI研发DSW（Data Science ...

数据安全

数据存储介质可用性说明对象存储 OSS 数据备份和容灾文件存储 NAS 备份和恢复文件云原生大数据计算服务 MaxCompute 备份与恢复同时PAI EasyCkpt是PAI为PyTorch大模型训练场景而开发的高性能Checkpoint框架，通过实现接近零开销的模型...

基于混合负载的查询优化

混合计算引擎提供Interactive与Batch计算模式，同时提供低延迟实时分析能力与大数据的高吞吐批计算能力，分别满足交互式查询与复杂离线计算场景。Interactive模式：采用MPP计算架构，调度粒度为整个查询所有任务，计算过程中pipeline流式...

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

镜像使用说明

AI与大数据领域的镜像尺寸常见于GB级别，函数计算一方面提高了镜像大小的限制，另一方面提供了镜像加速。本文介绍镜像大小限制、通用镜像加速方式以及官方基础镜像的说明和使用方式。未解压镜像大小限制针对未解压镜像，镜像大小限制与您...

云产品集成

常见云产品如下：大数据开发治理平台 DataWorks 实时计算 Flink 版数据库管理 DMS DataV 数据可视化 Quick BI 数据分析与展现前提条件已获取 OceanBase 数据库的基本连接信息，详细步骤请参见获取连接参数。大数据开发治理平台 ...

镜像使用说明

AI与大数据领域的镜像尺寸常见于GB级别，函数计算一方面提高了镜像大小的限制，另一方面提供了镜像加速。本文介绍镜像大小限制、通用镜像加速方式以及官方基础镜像的说明和使用方式。未解压镜像大小限制针对未解压镜像，镜像大小限制与您...

功能特性

计算 MaxCompute向用户提供了多种经典的分布式计算模型，提供TB、PB、EB级数据计算能力，能够更快速的解决用户海量数据计算问题，有效降低企业成本。功能集功能功能描述参考文档 SQL开发 DDL语句 DDL语句 DDL DML操作 DML操作 DML操作 ...

DataWorks产品安全能力介绍

备份与恢复：云原生底层存储天然支持三份副本备份，同时，大数据计算服务MaxCompute提供数据备份与恢复功能，您可对保留周期内的数据进行快速恢复，避免因错误操作丢失数据。安全销毁：阿里云上落盘的数据一经删除，永久不可恢复；同时，...

将云消息队列 Kafka 版的数据迁移至MaxCompute

本文介绍如何使用DataWorks数据同步功能，将云消息队列 Kafka 版集群上的数据迁移至阿里云大数据计算服务MaxCompute，方便您对离线数据进行分析加工。前提条件在开始本教程前，确保您在同一地域中已完成以下操作：云消息队列 Kafka 版 ...

客户案例

解决方案玩物得志基于阿里云DataWorks+MaxCompute框架搭建大数据平台，使用其核心存储、计算等组件、上层可视化及业务查询能力，在开源方案的基础上进行了二次开发。解决方案架构如下。详细案例信息，请参见玩物得志案例。互联网社交案例...

常见问题

如何理解开源与云原生的大数据技术与产品？MaxCompute作为大数据平台，对业务数据是否有好的监控手段？MaxCompute的项目发挥什么作用？如何获取MaxCompute中的Accesskey_ID和AccessKey_Secret？现有账号的AccessKey被禁用，创建一个新的...

产品概述

自动化编码：高效且自动化的编码：基于函数化理念，对通用数据计算逻辑进行组件化定义，并可自由组建统计指标，从而实现自助化建模研发，系统自动生成代码执行数据生产。智能计算优化：支持从业务视角进行逻辑建模。逻辑模型发布后，系统...

基于MaxCompute进行大数据BI分析

背景信息 MaxCompute：用于进行大规模数据计算，详情请参见什么是MaxCompute。AnalyticDB MySQL：用于进行海量数据实时高并发在线分析，详情请参见云原生数据仓库AnalyticDB MySQL版。DataWorks：可实现ETL功能，对复杂数据集进行采集、...

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

公告

该地域项目的存储、下载后付费账单归属的产品明细将从 大数据计算服务MaxCompute（包月）变成 大数据计算服务MaxCompute（按量付费），同时对应的用量明细选择的计量规格变成 大数据计算服务MaxCompute（按量付费）。当您使用的包年包月...

StarRocks概述

架构精简 StarRocks内部通过MPP计算框架完成SQL的具体执行工作。MPP框架能够充分的利用多节点的计算能力，整个查询可以并行执行，从而实现良好的交互式分析体验。StarRocks集群不需要依赖任何其他组件，易部署、易维护和极简的架构设计，...

什么是Dataphin

自动化编码：高效且自动化的编码：基于函数化理念，对通用数据计算逻辑进行组件化定义，并可自由组建统计指标，从而实现自助化建模研发，系统自动生成代码执行数据生产。智能计算优化：支持从业务视角进行逻辑建模。逻辑模型发布后，系统...

创建集群

业务场景请您根据自身实际场景进行选择：数据湖（DataLake）：提供更灵活、可靠、高效的管理集群，更快的运行大数据计算引擎并提供出色的数据分析能力。支持构建数据湖架构，使用JindoFS进行数据湖加速。支持OSS-HDFS（全托管HDFS）作为...

Paimon外部表

阿里云实时计算Flink版、开源大数据平台E-MapReduce 的常见计算引擎（如Spark、Hive或Trino）都与Paimon有完善的集成。借助Apache Paimon，您可以快速构建自己的数据湖存储服务在存储服务OSS上，并接入MaxCompute实现数据湖的分析。关于...

2023年

MaxCompute服务不可用赔付案例说明 2023-07-25 新增MaxCompute停止服务规格转换操作指引新说明阿里云云原生大数据计算服务MaxCompute将停止提供按量付费开发者版、包年包月套餐以及非预留计算资源服务，您需要将这些版本的计算资源转换为...

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

内置时空数据引擎Ganos

PolarDB PostgreSQL版（兼容Oracle）内置了时空数据库引擎Ganos，可对空间/时空数据进行高效的存储、索引、查询和分析计算。从静态POI（兴趣点）到APP位置信息，从电子地图到移动对象轨迹，从卫星遥感到泛在物联网，空间和时空信息已成为...

数据集成概述

数据集成是基于Dataphin构建的简单高效的数据同步平台，致力于提供具有强大的数据预处理能力、丰富的异构数据源之间数据高速稳定的同步能力。背景信息面对各行各业对大数据的应用，数据集成会有很多的诉求，包括能够简单高效的配置大量...

大数据计算框架与平台

新品推荐