什么是DataWorks

DataWorks发展之路 阿里巴巴集团内发展历程 从2009年产品立项开始,DataWorks与阿里巴巴业务共同发展,结合MaxCompute、Hologres等大数据计算引擎的能力,跨越多个技术阶段,支撑阿里巴巴数据中台与数据治理建设。目前阿里巴巴集团内...

CDH6与文件引擎集成

您可以基于CDH6和Lindorm文件引擎构建云原生存储计算分离的开源大数据系统。前提条件 请保证您的Lindorm实例和CDH6集群所在同一VPC内。请保证您的CDH6节点在Lindorm白名单中,如何添加白名单请参见 设置白名单。说明 本文中所涉及范例使用...

DataWorks V3.0

MaxCompute:数据计算服务MaxCompute(原ODPS)是一种快速、完全托管的EB级大数据计算引擎,是规模离线数据仓库的核心引擎。MaxCompute是DataWorks最早支持,且最成熟完备的计算引擎,目前已基本覆盖MaxCompute的所有功能。详情请参见 ...

计算设置概述

设置Dataphin实例的计算引擎为MaxCompute AnalyticDB for PostgreSQL 专注于OLAP领域的分析型数据库,是云端托管的PB级高并发实时数据仓库,具备海量数据计算无缝伸缩能力 设置Dataphin实例的计算引擎AnalyticDB for PostgreSQL E-...

计算设置概述

在您开始创建用于研发数据的项目空间前,需要先设置Dataphin实例的计算引擎。设置Dataphin实例的计算引擎后,系统支持为项目空间添加相应的计算源,为项目空间提供计算和存储的资源。本文为您介绍Dataphin系统的计算引擎说明。权限说明 仅...

资产全景

数据源:统计昨天有数据同步到计算引擎数据源数量,按照同步成功的表数量进行汇总排序,T+1 更新。数据表接入量Top5、数据表接入量Least5:基于同步任务和集成任务的实例数据进行汇总统计。物理表数:生产环境所有物理表总数,准实时更新...

资产全景

数据源:统计昨天有数据同步到计算引擎数据源数量,按照同步成功的表数量进行汇总排序,T+1 更新。数据表接入量Top5、数据表接入量Least5:基于同步任务和集成任务的实例数据进行汇总统计。物理表数:生产环境所有物理表总数,准实时更新...

与Spark集成分析

基于DLA无服务器化(Serverless)数据湖分析服务与内置的Spark计算引擎,DLA Ganos提供了不同级别的数据分析模型,最基础的是GeometryRDD模型,用来实现Ganos数据中SimpleFeature与Spark中RDD模型的之间的转换。在GeometryRDD基础上,DLA ...

与Spark集成分析

基于DLA无服务器化(Serverless)数据湖分析服务与内置的Spark计算引擎,DLA Ganos提供了不同级别的数据分析模型,最基础的是GeometryRDD模型,用来实现Ganos数据中SimpleFeature与Spark中RDD模型的之间的转换。在GeometryRDD基础上,DLA ...

2023年

该地域项目的存储、下载后付费账单归属的 产品明细 将从 大数据计算服务MaxCompute(包月)变成 大数据计算服务MaxCompute(按量付费),同时对应的用量明细选择的计量规格变成 大数据计算服务MaxCompute(按量付费)。当您使用的包年包月...

外部表概述

随着大数据业务的不断扩展,新的数据使用场景在不断产生,MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大计算能力,正一步步地开放给不同的外部数据。现阶段MaxCompute SQL处理的主要是以 cfile 列格式...

TSDB全量迁移至时序引擎

本文介绍时间序列数据库(Time Series Database,简称TSDB)全量迁移至 云原生多模数据库 Lindorm 时序引擎的方法。前提条件 已安装Linux或者macOS操作系统,并且安装以下环境。已安装Java环境,版本为JDK 1.8及以上。已安装Python环境,...

Tablestore外部表

注意事项 MaxCompute与Tablestore是两个独立的大数据计算和存储服务,所以两者之间的网络必须保证连通性。MaxCompute公共云服务访问Tablestore存储时,推荐您使用Tablestore私网地址,即Host名以 ots-internal.aliyuncs.com 作为结尾的地址...

产品简介

基于DLA无服务器化(Serverless)数据湖分析服务与内置的Spark计算引擎,DLA Ganos打通了阿里云各个存储系统,如PolarDB、Lindorm(HBase)、OSS等,通过统一的时空数据模型与计算接口,实现对多源异构数据的一体化管理与计算,并支持进行...

DAS Auto Scaling弹性能力

数据库自治服务DAS的Auto Scaling是以数据库实例的实时性能数据作为输入,由DAS完成流量异常发现、合理数据库规格建议和合理磁盘容量建议,使数据库服务具备自动扩展存储和计算资源的能力。背景信息 为业务应用选择一个合适的数据计算...

概述

Spark全密态数据计算引擎常用于解决数据存储与计算安全、敏感数据合规和数据安全共享场景中的数据安全问题。以下是常见的应用场景:数据存储与计算安全场景:在不可信环境中(如第三方平台),Spark全密态计算引擎 可以为关键的数据分析...

新建AnalyticDB For PostgreSQL计算

前提条件 Dataphin的计算引擎设置为AnalyticDB For PostgreSQL,详情请参见 设置Dataphin实例的计算引擎AnalyticDB for PostgreSQL。已获取AnalyticDB For PostgreSQL计算引擎数据库对应的Schema、用户名和密码。配置的用户需要具有元数据...

基于Delta lake的一站式数据湖构建与分析实战

数据湖计算与分析 相比于数据仓库,数据湖以更开放的方式对接多种不同的计算引擎,如传统开源大数据计算引擎Hive、Spark、Presto、Flink等,同时也支持云厂商自研的数据引擎,如阿里云MaxCompute、Hologres等。在数据湖存储与计算引擎...

访问Kafka数据

前提条件 已开通Lindorm实例的计算引擎服务。具体操作,请参见 开通与变配。已创建与Lindorm实例位于同一地域的Kafka实例。具体操作,请参见 公网和VPC接入。已在Kafka实例中创建Topic。具体操作,请参见 步骤三:创建资源。操作步骤 启动...

技术架构选型

数据模型设计之前,您需要首先完成技术...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。icmsDocProps={'productMethod':'created','language':'zh-CN',};

Paimon概述

目前阿里云开源大数据平台E-MapReduce常见的计算引擎(例如Flink、Spark、Hive或Trino)都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务,并接入上述计算引擎实现数据湖的分析...

技术架构选型

数据模型设计之前,您需要首先完成技术架构的选型。本教程中使用阿里云大数据产品MaxCompute配合...MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks则包括数据开发、数据质量、数据安全、数据管理等在内的一系列功能。

DataWorks节点合集

引擎计算类节点 DataWorks将计算引擎能力进行封装,您可基于引擎节点进行数据开发,无需接触复杂的引擎命令行,便可在DataWorks实现各类任务的周期性调度。目前支持 MaxCompute、Hologres、E-MapReduce、AnalyticDB For PostgreSQL、...

使用Hadoop作为元仓计算引擎进行元仓初始化

元仓初始化即配置Dataphin系统的计算引擎类型并初始化元数据的过程。本文将为您介绍如何使用Hadoop作为元仓计算引擎进行元仓初始化。前提条件 以Hadoop作为元仓时,需开放元数据库或提供Hive Metastore服务,用于获取元数据。背景信息 ...

使用星环TDH作为元仓计算引擎进行元仓初始化

元仓初始化即配置Dataphin系统的计算引擎类型并初始化元数据的过程。本文将为您介绍如何使用星环TDH作为元仓计算引擎进行元仓初始化。前提条件 以星环TDH作为元仓时,需开放元数据库或提供Hive Metastore服务,用于获取元数据。以TDH ...

元数据仓库共享模型概述

Dataphin元数据仓库(简称:元仓),是统一管理Dataphin内部业务元数据和相应计算引擎元数据的数据仓库,存在于Dataphin元仓租户中(OPS租户)的一个Dataphin项目空间中,由一系列的周期性数据集成节点、SQL脚本节点、Shell节点组成。...

金融大数据

大数据数据仓库融合了丰富的计算引擎,能够满足离线计算、实时计算、流计算、图计算等不同的业务应用场景。同时支持结构化数据与非结构化数据的存储与计算。架构优势:提供了结构化与非结构化数据的融合方案 满足了同时存在离线、在线、流...

DataWorks新版数据源公告

已绑定的计算引擎:已绑定的计算引擎迁移至 数据开发>数据源 管理。编辑计算引擎:不再支持直接编辑计算引擎,如需编辑可直接通过编辑数据源来实现。解绑计算引擎:空间管理员可直接解绑计算引擎,不会导致引用的数据源被删除。引擎合并入...

客户案例

MaxCompute已被广泛应用于各领域处理云上大数据,帮助众多企业解决了海量数据分析问题,同时降低企业运维成本,...在混合云架构下,机密数据在专有云内完成,云端的规模数据的计算则通过MaxCompute完成,定位数据的播发在公共云上完成。

生态对接

商业智能(BI)工具 商业智能(BI)工具支持将计算引擎得到的数据通过仪表板、图表或其他图形输出实现数据可视化,以直观的形式展示给决策者,帮助高层管理者做出更明智的业务决策。MaxCompute支持的BI工具如下。商业BI工具 工具 版本要求 ...

ECS资源复用版

ECS资源复用版是MaxCompute按量付费类型中的一种实例规格,旨在将ECS闲置实例转换为可用的MaxCompute计算资源,该方式可以充分利用已有的计算资源,而不需要额外购买新的MaxCompute计算资源,从而在满足大数据处理需求的同时,提高资源利用...

管理Paimon Catalog

目前阿里云开源大数据平台E-MapReduce常见的计算引擎(例如Flink、Spark、Hive或Trino)都与Paimon有着较为完善的集成度。您可以借助Apache Paimon快速地在HDFS或者云端OSS上构建自己的数据湖存储服务,并接入上述计算引擎实现数据湖的分析...

计量计费

本文为您介绍如何估算MaxCompute SQLML作业的费用。背景信息 通常情况下,每个算法组件由多个子任务组成。...查看账单信息 MaxCompute SQLML作业,在账单中体现的是 大数据计算服务MaxCompute+机器学习(PAI)两个产品的费用。

计费常见问题

SQL作业的费用计算方式为 输入数据量×复杂度×单价,因此在复杂度和单价不变情况下,输入数据量越费用越高。MaxCompute作业跑失败了会收费吗?MaxCompute有两种计费模式:按量计费:如果作业是按照按量计费进行运行的,当运行失败后,...

Paimon外部表

阿里云实时计算Flink版、开源大数据平台E-MapReduce 的常见计算引擎(如Spark、Hive或Trino)都与Paimon有完善的集成。借助Apache Paimon,您可以快速构建自己的数据湖存储服务在存储服务OSS上,并接入MaxCompute实现数据湖的分析。关于...

创建Hologres计算

Schema 填写计算引擎数据库对应的Schema连接信息。用户名、密码 填写连接计算源的用户名和密码。单击 测试连接。连接测试通过后,单击 提交。后续步骤 完成创建加速计算源后,即可为已绑定MaxCompute计算源的项目添加Hologres加速计算源或...

创建Hologres计算

Schema 填写计算引擎数据库对应的Schema连接信息。用户名、密码 填写连接计算源的用户名和密码。单击 测试连接。连接测试通过后,单击 提交。后续步骤 完成创建加速计算源后,即可为已绑定MaxCompute计算源的项目添加Hologres加速计算源或...

准备工作简介

Dataphin准备工作流程简介。...具体操作,请参见 设置Dataphin实例的计算引擎。准备数据源和计算源。在创建项目空间前,您需要准备用于读取和写入数据数据源、用于提供计算资源的计算源。具体操作,请参见 准备数据源和计算源。

使用须知

本文介绍使用Lindorm计算引擎SQL语句访问数据库的数据时,需要提前了解的相关内容。了解开源Spark SQL 通过开源Spark SQL访问数据库的数据分为以下三个级别:Catalog:用来标识用户不同的数据源。Namespace:与数据库中的Database或者...

访问增强版HBase数据

云原生多模数据库 Lindorm 支持通过Lindorm计算引擎访问云数据库HBase增强版集群中的数据。前提条件 已开通Lindorm计算引擎。如何开通,请参见 开通与变配。已阅读并了解通过Lindorm计算引擎访问数据时的使用须知。详细内容,请参见 使用...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云原生大数据计算服务 MaxCompute 云数据库 RDS 数据库备份 DBS 云服务器 ECS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用