大数据的计算引擎-大数据的计算引擎文档介绍内容-阿里云

什么是DataWorks

DataWorks发展之路阿里巴巴集团内发展历程从2009年产品立项开始，DataWorks与阿里巴巴业务共同发展，结合MaxCompute、Hologres等大数据计算引擎的能力，跨越多个技术阶段，支撑阿里巴巴数据中台与数据治理建设。目前阿里巴巴集团内...

CDH6与文件引擎集成

您可以基于CDH6和Lindorm文件引擎构建云原生存储计算分离的开源大数据系统。前提条件请保证您的Lindorm实例和CDH6集群所在同一VPC内。请保证您的CDH6节点在Lindorm白名单中，如何添加白名单请参见设置白名单。说明本文中所涉及范例使用...

DataWorks V3.0

MaxCompute：大数据计算服务MaxCompute（原ODPS）是一种快速、完全托管的EB级大数据计算引擎，是大规模离线数据仓库的核心引擎。MaxCompute是DataWorks最早支持，且最成熟完备的计算引擎，目前已基本覆盖MaxCompute的所有功能。详情请参见 ...

计算设置概述

设置Dataphin实例的计算引擎为MaxCompute AnalyticDB for PostgreSQL 专注于OLAP领域的分析型数据库，是云端托管的PB级高并发实时数据仓库，具备海量数据计算无缝伸缩能力设置Dataphin实例的计算引擎AnalyticDB for PostgreSQL E-...

计算设置概述

在您开始创建用于研发数据的项目空间前，需要先设置Dataphin实例的计算引擎。设置Dataphin实例的计算引擎后，系统支持为项目空间添加相应的计算源，为项目空间提供计算和存储的资源。本文为您介绍Dataphin系统的计算引擎说明。权限说明仅...

资产全景

数据源：统计昨天有数据同步到计算引擎的数据源数量，按照同步成功的表数量进行汇总排序，T+1 更新。数据表接入量Top5、数据表接入量Least5：基于同步任务和集成任务的实例数据进行汇总统计。物理表数：生产环境所有物理表总数，准实时更新...

资产全景

数据源：统计昨天有数据同步到计算引擎的数据源数量，按照同步成功的表数量进行汇总排序，T+1 更新。数据表接入量Top5、数据表接入量Least5：基于同步任务和集成任务的实例数据进行汇总统计。物理表数：生产环境所有物理表总数，准实时更新...

与Spark集成分析

基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos提供了不同级别的数据分析模型，最基础的是GeometryRDD模型，用来实现Ganos数据中SimpleFeature与Spark中RDD模型的之间的转换。在GeometryRDD基础上，DLA ...

与Spark集成分析

基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos提供了不同级别的数据分析模型，最基础的是GeometryRDD模型，用来实现Ganos数据中SimpleFeature与Spark中RDD模型的之间的转换。在GeometryRDD基础上，DLA ...

2023年

该地域项目的存储、下载后付费账单归属的产品明细将从 大数据计算服务MaxCompute（包月）变成 大数据计算服务MaxCompute（按量付费），同时对应的用量明细选择的计量规格变成 大数据计算服务MaxCompute（按量付费）。当您使用的包年包月...

外部表概述

随着大数据业务的不断扩展，新的数据使用场景在不断产生，MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大计算能力，正一步步地开放给不同的外部数据。现阶段MaxCompute SQL处理的主要是以 cfile 列格式...

TSDB全量迁移至时序引擎

本文介绍时间序列数据库（Time Series Database，简称TSDB）全量迁移至云原生多模数据库 Lindorm 时序引擎的方法。前提条件已安装Linux或者macOS操作系统，并且安装以下环境。已安装Java环境，版本为JDK 1.8及以上。已安装Python环境，...

Tablestore外部表

注意事项 MaxCompute与Tablestore是两个独立的大数据计算和存储服务，所以两者之间的网络必须保证连通性。MaxCompute公共云服务访问Tablestore存储时，推荐您使用Tablestore私网地址，即Host名以 ots-internal.aliyuncs.com 作为结尾的地址...

产品简介

基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如PolarDB、Lindorm(HBase)、OSS等，通过统一的时空数据模型与计算接口，实现对多源异构数据的一体化管理与计算，并支持进行...

DAS Auto Scaling弹性能力

数据库自治服务DAS的Auto Scaling是以数据库实例的实时性能数据作为输入，由DAS完成流量异常发现、合理数据库规格建议和合理磁盘容量建议，使数据库服务具备自动扩展存储和计算资源的能力。背景信息为业务应用选择一个合适的数据库计算...

概述

Spark全密态数据计算引擎常用于解决数据存储与计算安全、敏感数据合规和数据安全共享场景中的数据安全问题。以下是常见的应用场景：数据存储与计算安全场景：在不可信环境中（如第三方平台），Spark全密态计算引擎可以为关键的数据分析...

新建AnalyticDB For PostgreSQL计算源

前提条件 Dataphin的计算引擎设置为AnalyticDB For PostgreSQL，详情请参见设置Dataphin实例的计算引擎AnalyticDB for PostgreSQL。已获取AnalyticDB For PostgreSQL计算引擎数据库对应的Schema、用户名和密码。配置的用户需要具有元数据...

基于Delta lake的一站式数据湖构建与分析实战

数据湖计算与分析相比于数据仓库，数据湖以更开放的方式对接多种不同的计算引擎，如传统开源大数据计算引擎Hive、Spark、Presto、Flink等，同时也支持云厂商自研的大数据引擎，如阿里云MaxCompute、Hologres等。在数据湖存储与计算引擎...

访问Kafka数据

前提条件已开通Lindorm实例的计算引擎服务。具体操作，请参见开通与变配。已创建与Lindorm实例位于同一地域的Kafka实例。具体操作，请参见公网和VPC接入。已在Kafka实例中创建Topic。具体操作，请参见步骤三：创建资源。操作步骤启动...

技术架构选型

在数据模型设计之前，您需要首先完成技术...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。icmsDocProps={'productMethod':'created','language':'zh-CN',};

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

技术架构选型

在数据模型设计之前，您需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。

DataWorks节点合集

引擎计算类节点 DataWorks将计算引擎能力进行封装，您可基于引擎节点进行数据开发，无需接触复杂的引擎命令行，便可在DataWorks实现各类任务的周期性调度。目前支持 MaxCompute、Hologres、E-MapReduce、AnalyticDB For PostgreSQL、...

使用Hadoop作为元仓计算引擎进行元仓初始化

元仓初始化即配置Dataphin系统的计算引擎类型并初始化元数据的过程。本文将为您介绍如何使用Hadoop作为元仓计算引擎进行元仓初始化。前提条件以Hadoop作为元仓时，需开放元数据库或提供Hive Metastore服务，用于获取元数据。背景信息 ...

使用星环TDH作为元仓计算引擎进行元仓初始化

元仓初始化即配置Dataphin系统的计算引擎类型并初始化元数据的过程。本文将为您介绍如何使用星环TDH作为元仓计算引擎进行元仓初始化。前提条件以星环TDH作为元仓时，需开放元数据库或提供Hive Metastore服务，用于获取元数据。以TDH ...

元数据仓库共享模型概述

Dataphin元数据仓库（简称：元仓），是统一管理Dataphin内部业务元数据和相应计算引擎元数据的数据仓库，存在于Dataphin元仓租户中（OPS租户）的一个Dataphin项目空间中，由一系列的周期性数据集成节点、SQL脚本节点、Shell节点组成。...

金融大数据

大数据数据仓库融合了丰富的计算引擎，能够满足离线计算、实时计算、流计算、图计算等不同的业务应用场景。同时支持结构化数据与非结构化数据的存储与计算。架构优势：提供了结构化与非结构化数据的融合方案满足了同时存在离线、在线、流...

DataWorks新版数据源公告

已绑定的计算引擎：已绑定的计算引擎迁移至数据开发>数据源管理。编辑计算引擎：不再支持直接编辑计算引擎，如需编辑可直接通过编辑数据源来实现。解绑计算引擎：空间管理员可直接解绑计算引擎，不会导致引用的数据源被删除。引擎合并入...

客户案例

MaxCompute已被广泛应用于各大领域处理云上大数据，帮助众多企业解决了海量数据分析问题，同时降低企业运维成本，...在混合云架构下，机密数据在专有云内完成，云端的大规模数据的计算则通过MaxCompute完成，定位数据的播发在公共云上完成。

生态对接

商业智能（BI）工具商业智能（BI）工具支持将计算引擎得到的数据通过仪表板、图表或其他图形输出实现数据可视化，以直观的形式展示给决策者，帮助高层管理者做出更明智的业务决策。MaxCompute支持的BI工具如下。商业BI工具工具版本要求 ...

ECS资源复用版

ECS资源复用版是MaxCompute按量付费类型中的一种实例规格，旨在将ECS闲置实例转换为可用的MaxCompute计算资源，该方式可以充分利用已有的计算资源，而不需要额外购买新的MaxCompute计算资源，从而在满足大数据处理需求的同时，提高资源利用...

管理Paimon Catalog

目前阿里云开源大数据平台E-MapReduce常见的计算引擎（例如Flink、Spark、Hive或Trino）都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务，并接入上述计算引擎实现数据湖的分析...

计量计费

本文为您介绍如何估算MaxCompute SQLML作业的费用。背景信息通常情况下，每个算法组件由多个子任务组成。...查看账单信息 MaxCompute SQLML作业，在账单中体现的是 大数据计算服务MaxCompute+机器学习（PAI）两个产品的费用。

计费常见问题

SQL作业的费用计算方式为输入数据量×复杂度×单价，因此在复杂度和单价不变情况下，输入数据量越大费用越高。MaxCompute作业跑失败了会收费吗？MaxCompute有两种计费模式：按量计费：如果作业是按照按量计费进行运行的，当运行失败后，...

Paimon外部表

阿里云实时计算Flink版、开源大数据平台E-MapReduce 的常见计算引擎（如Spark、Hive或Trino）都与Paimon有完善的集成。借助Apache Paimon，您可以快速构建自己的数据湖存储服务在存储服务OSS上，并接入MaxCompute实现数据湖的分析。关于...

创建Hologres计算源

Schema 填写计算引擎数据库对应的Schema连接信息。用户名、密码填写连接计算源的用户名和密码。单击测试连接。连接测试通过后，单击提交。后续步骤完成创建加速计算源后，即可为已绑定MaxCompute计算源的项目添加Hologres加速计算源或...

创建Hologres计算源

Schema 填写计算引擎数据库对应的Schema连接信息。用户名、密码填写连接计算源的用户名和密码。单击测试连接。连接测试通过后，单击提交。后续步骤完成创建加速计算源后，即可为已绑定MaxCompute计算源的项目添加Hologres加速计算源或...

准备工作简介

Dataphin准备工作流程简介。...具体操作，请参见设置Dataphin实例的计算引擎。准备数据源和计算源。在创建项目空间前，您需要准备用于读取和写入数据的数据源、用于提供计算资源的计算源。具体操作，请参见准备数据源和计算源。

使用须知

本文介绍使用Lindorm计算引擎SQL语句访问数据库的数据时，需要提前了解的相关内容。了解开源Spark SQL 通过开源Spark SQL访问数据库的数据分为以下三个级别：Catalog：用来标识用户不同的数据源。Namespace：与数据库中的Database或者...

访问增强版HBase数据

云原生多模数据库 Lindorm 支持通过Lindorm计算引擎访问云数据库HBase增强版集群中的数据。前提条件已开通Lindorm计算引擎。如何开通，请参见开通与变配。已阅读并了解通过Lindorm计算引擎访问数据时的使用须知。详细内容，请参见使用...

大数据的计算引擎

新品推荐