产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

EMR+DLF数据湖解决方案

步骤三:初始化数据 初始化数据一般常见的几种情况如下:已有大数据集群,需要进行数据迁移,此时可以考虑通过 Jindo DistCp 工具将老集群的数据迁移到OSS中。从RDS/MySQL/Kafka 等业务系统接入数据,此时可以考虑通过实时计算Flink实现...

DROP TYPE

简介 DROP TYPE 移除一用户定义数据类型。只有一个类型的拥有者才能移除它。语法 DROP TYPE[IF EXISTS]name[,.][CASCADE|RESTRICT]参数 IF EXISTS 如果该类型不存在则不要抛出一个错误,而是发出一个提示。name 要移除的数据类型的名称...

域类型

域 是一用户定义数据类型,它基于另一 底层类型。根据需要,它可以有约束来限制其有效值为底层类型所允许值的一个子集。如果没有约束,它的行为就和底层类型一样—例如,任何适用于底层类型的操作符或函数都对该域类型有效。底层类型...

典型慢查询

导致查询磁盘I/O消耗较大的原因通常有如下几种:过滤条件的数据筛选率较低,导致索引的使用效率不高,需要读取的索引量较大。过滤条件没有下推,导致对源表进行了全表扫描。过滤条件下推,但是过滤条件设置的范围较大,仍然有大量数据被...

散点层

重要 该配置项为一个数组,配合数据分级使用,从类型1到类型n为递增的设置,例:类型1设置为10,则表示value值为0~10的数据将展示为10的大小,类型2设置为20,则表示value值为11~20的数据将展示为20的大小,如果数据分级配置项设置为3级,...

产品简介

大数据专家服务 大数据专家服务(Bigdata Expert Service)是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障,帮助用户...

CREATE OPERATOR CLASS

一个操作符类定义特殊的数据类型如何被用于一个索引。操作符类指定为该数据类型和索引方法扮演特殊角色或者“策略”的操作符。操作符类还指定当该操作符类被选择用于一个索引列时,索引方法要使用的支持函数。操作符类所使用的所有操作...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统,构建清晰的数据流,让您更好的释放数据的价值。...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与...

使用自定义镜像创建服务器

如果自定义镜像中包含数据数据,则数据盘的大小也不能小于自定义镜像中数据数据的大小。在轻量应用服务器创建完成前,请注意不要进行以下操作,否则将导致服务器创建失败:删除对应的自定义镜像。删除自定义镜像来源的快照。对自定义...

入门实践

而数据建模新增定义数据形态的流程,为您提供一站式的模型管理解决方案和数据开发前的治理能力。在数据建模时,您可以根据对业务流程的理解和需求的调研,定义企业的业务标准和规范。同时,基于数据标准进行引用和实行,生成表结构,实现...

管理问题数据

数据质量支持您保留数据质量监控过程中从数据表中发现的非预期数据,帮助您快速排查、定位问题,提升数据质量。本文为您介绍如何管理数据质量监控过程中从数据表中发现的非预期数据。背景信息 问题数据数据质量支持在部分规则校验不通过...

数据分析概述

DataWorks提供的数据分析平台,可以流畅地进行数据处理、分析、加工及可视化操作。在数据分析板块中,您不仅可以在线洞察数据,还可以编辑和共享数据。本文为您介绍数据分析平台的优势、功能、权限等概要信息。产品优势 与本地数据分析相比...

数据迁移

本文为您介绍数据迁移的最佳实践,包含将其他业务平台的业务数据或日志数据迁移至MaxCompute,或将MaxCompute的数据迁移至其它业务平台。背景信息 传统关系型数据库不适合处理海量数据,如果您的数据存放在传统的关系型数据库且数据量庞大...

SELECT FUNCTION

列的数据类型必须与SQL语言定义函数定义数据类型保持一致。table_name:待查询目标表的名称。使用示例-创建目标表src。create table src(c bigint,d string);insert into table src values(1,100.1),(2,100.2),(3,100.3);调用my_add函数...

数据服务概述

数据服务基于Serverless架构,您无需关注服务器、网络等运行环境相关的基础设施,只需专注于API的定义数据的查询逻辑,从而避免传统架构带来的运维成本开销。数据服务与API网关(API Gateway)完全集成,支持您将数据服务快速发布到API...

概述

从应用视角看,全密态数据库可以解决不同应用场景下的数据安全问题,几种典型场景如下:平台安全运维:该场景主要针对在不可信环境(如第三方平台)下提供的数据库服务的安全防护,保证用户数据在运维过程中的安全。例如,业务将应用数据库...

名词解释

数据类型介绍 Tuple类型下只支持写入数据是有格式的数据,支持以下几种数据类型 类型 含义 值域 BIGINT 8字节有符号整型-9223372036854775807~9223372036854775807 DOUBLE 8字节双精度浮点数-1.0_10^308~1.0_10^308 BOOLEAN 布尔类型 True/...

数据开发概述

功能介绍 规范建模:基于已明确的业务需求,从业务顶层开始设计,规范定义数据的标准及计算口径完成数据模型的设计。同时您提供可视化、标准化、规范化和自动化定义数据,而非传统手动写SQL代码的方式,这样就避免了统计指标计算口径不一致...

创建/刷新物化视图支持批量写入

对于物化视图的创建(CREATE MATERIALIZED VIEW)和刷新(REFRESH MATERIALIZED VIEW),以及 CREATE TABLE AS/SELECT INTO 语法,由于在数据库层面需要完成的工作步骤十分相似,因此PostgreSQL内核使用同一套代码逻辑来处理这几种语法。...

什么是指标

衍生定义指标与原始定义指标类似,是一属性定义,没有具体的数据值。衍生定义的指标不在产品的实体上进行计算,仅在产品下的设备上进行衍生定义指标的计算,汇总数据就是设备衍生指标的指标数据。产品衍生定义的指标和其名下每个设备衍生...

API

convertDataSourceMeta 将数据源模型数据转换为数据源属性对象。定义:interface ComponentApi convertDataSourceMeta:(schemaData:DataSourceSchemaData)=>DataSourceMeta|undefined;} 参数:字段 类型 含义 备注 schemaData ...

创建物化视图的跨机并行加速和批量写入

原理介绍 对于物化视图的创建和刷新,以及 CREATE TABLE AS/SELECT INTO 语法,由于在数据库层面需要完成的工作步骤十分相似,因此PostgreSQL内核使用同一套代码逻辑来处理这几种语法。内核执行过程中主要包含以下两个步骤:数据扫描:执行...

分区表常见问题

针对 PolarDB MySQL版 分区表,您可以选择以下几种索引:部分索引(Partial Index)您可以根据实际业务场景,在分区表的不同分区上创建不同的索引,以满足不同分区上的查询需求。全局二级索引(GSI)针对查询条件中不包含分区键的等值查询...

逻辑结构说明

由上图可见,Dataphin的架构包括以下个层次:业务模型层和计算引擎层:业务模型层从业务视角对数据进行重新定义组织,分类打标;计算引擎层承载数据的实际计算与存储。业务模型层按照不同的业务形态,划分出业务板块,一业务形态对应...

常见问题

MaxCompute的表格类型有几种,分别是什么?如果想使用MaxCompute的自定义函数(UDF)或MapReduce功能需要依赖什么资源来完成?MaxCompute常见错误信息如何理解,怎么定位问题?使用MaxCompute需要具备什么专业技能?MaxCompute支持多种计算...

Commons Pool 连接 OceanBase 数据库示例程序

本文将介绍如何使用 Commons Pool、MySQL Connector/J 和 OceanBase 数据库构建一个应用程序,实现基本的数据库操作,包括创建表、插入数据、更新数据、删除数据、查询数据和删除表等。点击下载 commonpool-mysql-client 示例工程 前提条件...

表设计规范

数据导入通道与表设计 通道类型有以下几种:DataHub 规划写入的分区与写入流量之间的关系。数据达到64 MB会执行1次Commit。数据集成或DataX 规划写入表分区的频率。数据达到64 MB会执行1次Commit,以免Commit空目录。DTS 规划写入的表存量...

基本概念

实例有几种类型:周期实例、测试实例、补数据实例、手动实例。不同类型的实例,是由于触发任务运行的方式不同。对于周期任务而言,每个周期一次运行产生一个实例。周期调度(Task Schedule):任务按需设置其执行计划,并被周期性执行。...

ClickHouse概述

支持索引 按照主键对数据进行排序,ClickHouse可以在十毫秒以内完成对数据特定值或范围的查找。典型应用场景 场景 描述 用户行为分析 行为分析系统的表可以制作成一张大的宽表,每个表包含大量的列,可以超过一千列。JOIN的形式相对少...

数据格式描述文件

键 格式 描述 是否必须 type 字符串 数据格式,可以是“json”、“jsonLowercase”、“csv”和“tsv”几种格式。是 timestampSpec JSON对象 时间戳和时间戳类型。是 dimensionsSpec JSON对象 数据的维度(包含哪些列)。是 对于不同的数据...

资源组说明

资源组功能 每类型的资源组,按功能可分为类:通用任务执行器:用于连接用户的数据库,获取库表元数据,执行SQL,也包括连接用户计算引擎(Flink、Spark等),提交作业。数据同步Worker:用于执行数据同步任务,包括离线同时、实时同步...

资源组说明

资源组功能 每类型的资源组,按功能可分为类:通用任务执行器:用于连接用户的数据库,获取库表元数据,执行SQL,也包括连接用户计算引擎(Flink、Spark等),提交作业。数据同步Worker:用于执行数据同步任务,包括离线同时、实时同步...

Beam排序优化(7.0版)

数据有序后,Beam在对表进行扫描时可以根据数据块的最大和最小值跳过不满足过滤条件的数据块,从而极地减少I/O开销。此外,定义排序键通常也能使数据获得更好的压缩比。目前Beam支持两排序键类型:组合排序键和多维排序键。注意事项 ...

Kafka实时入湖

数据预处理支持使用Spark SQL函数定义预处理算子,目前支持map与filter两算子。定义预处理算子需要注意以下点:第一个预处理算子需要基于Kafka入湖的schema来编写,请参考如上字段列表。每一个预处理算子的处理逻辑可以看作一个SQL的子...

Serverless Presto概述

Presto开发的初衷就是为了解决使用Hive来进行在线分析速度太慢的问题,因此它采用全内存流水线化的执行引擎,相较于其它引擎会把中间数据落盘的执行方式,Presto在执行速度上有很大的优势,特别适合用来做Adhoc查询、BI分析、轻量级ETL等...

数据权限概述

重要 为了打通阿里云RAM用户与开源大数据用户体系,数据湖权限定义了当RAM用户与Linux或LDAP用户具有相同用户名时,两者作为Owner是等价的,例如Owner=acs:ram:<阿里云账号uid>:user/user_a与Owner=user_a等价。阿里云主账户作为资源Owner...

权限管理与规范化数据开发

在本案例中,您需要准备至少5个RAM用户,并对其赋予如下几种角色:授权步骤请参考 用户授权与管理,其中:数据团队主管被赋予“空间管理员”权限。数据开发人员被赋予“开发角色”权限。数据建模人员被赋予“模型设计师角色”权限。运维...

基本概念

栅格数据(Raster Data)是将地理空间分割成有规律的网格,每一个网格称为一个单元(像元或像素),并在各单元上赋予相应的属性值来表示实体的一种数据形式。栅格数据通常有两类型的栅格数据:专题数据和影像数据。专题数据:每个栅格像...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 数据库备份 云数据库 RDS 云服务器 ECS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用