EMR+DLF数据湖解决方案

步骤三:初始化数据 初始化数据一般常见的几种情况如下:已有大数据集群,需要进行数据迁移,此时可以考虑通过 Jindo DistCp 工具将老集群的数据迁移到OSS中。从RDS/MySQL/Kafka 等业务系统接入数据,此时可以考虑通过实时计算Flink实现...

典型慢查询

导致查询磁盘I/O消耗较的原因通常如下几种:过滤条件的数据筛选率较低,导致索引的使用效率不高,需要读取的索引量较。过滤条件没有下推,导致对源表进行了全表扫描。过滤条件下推,但是过滤条件设置的范围较,仍然大量数据被...

产品简介

开源大数据开发平台E-MapReduce(简称EMR)是运行在阿里云平台上的一种大数据处理系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云...

产品概述

什么是E-MapReduce 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理...

将云消息队列 Kafka 版的数据迁移至MaxCompute

背景信息 大数据计算服务MaxCompute(原ODPS)是一种大数据计算服务,能提供快速、完全托管免运维的EB级云数据仓库解决方案。DataWorks基于MaxCompute计算和存储,提供工作流可视化开发、调度运维托管的一站式海量数据离线加工分析平台。在...

DataWorks On EMR使用说明

背景信息 开源大数据开发平台E-MapReduce(简称EMR),是运行在阿里云平台上的一种大数据处理的系统解决方案。EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。阿里云...

算子

上下游Stage间传输数据的方法如下几种:Broadcast:表示上游Stage中每个计算节点的数据都会复制到所有下游Stage的计算节点。Repartition:表示上游Stage中每个节点的数据会按照固定的规则切分后,再分发到下游Stage的指定计算节点。...

测试数据构建

RDS MariaDB、其他来源MariaDB OceanBase MySQL模式 PolarDB PostgreSQL版(兼容Oracle)背景信息 功能测试或者性能测试时,往往需要准备测试数据,通常以下几种方法:手工编写:效率低,不适用于大数据量场景。维护生成测试数据脚本:成...

名词解释

数据类型介绍 Tuple类型下只支持写入数据是格式的数据,支持以下几种数据类型 类型 含义 值域 BIGINT 8字节符号整型-9223372036854775807~9223372036854775807 DOUBLE 8字节双精度浮点数-1.0_10^308~1.0_10^308 BOOLEAN 布尔类型 True/...

数据源概述

数据集成目前支持种数据源,目前支持的数据源及其配置详情请参见:支持的数据源与读写插件。说明 数据同步基于数据源控制任务读写端数据库,您需要在数据集成同步任务配置前,配置好您需要同步的源端和目标端数据库或数据仓库的相关...

配置StarRocks输出组件

stream load同步数据延迟说明 当使用stream load方式向StarRocks数据库导入数据时,返回的状态以下几种情况,可能出现publish timeout情况,此情况下任务也是成功的,但是会存在查询延迟情况。请关注运行日志中的状态:Success:表示导入...

配置StarRocks输出组件

stream load同步数据延迟说明 当使用stream load方式向StarRocks数据库导入数据时,返回的状态以下几种情况,可能出现publish timeout情况,此情况下任务也是成功的,但是会存在查询延迟情况。请关注运行日志中的状态:Success:表示导入...

支持的数据源及同步方案

数据集成目前支持MySQL、MaxCompute、Hologres、OSS、Kafka等种数据源,各数据源支持的同步方案及读写插件不同,您可以根据实际需求,在配置同步任务中的源端和目标端时选择合适的数据源。支持的数据源及同步方案 数据集成包括离线同步...

常见问题

MaxCompute的表格类型有几种,分别是什么?如果想使用MaxCompute的自定义函数(UDF)或MapReduce功能需要依赖什么资源来完成?MaxCompute常见错误信息如何理解,怎么定位问题?使用MaxCompute需要具备什么专业技能?MaxCompute支持多种计算...

磁盘空间诊断

一般WAL占用空间较大有以下几种原因:参数 wal_keep_segments 设置过大。参数 wal_keep_segments 表示最少保留的WAL文件数量。解决思路:可通过 SHOW wal_keep_segments 检查参数设置。此外可通过 SHOW wal_segment_size 获知单个WAL文件...

磁盘空间诊断

一般WAL占用空间较大有以下几种原因:参数 wal_keep_segments 设置过大。参数 wal_keep_segments 表示最少保留的WAL文件数量。解决思路:可通过 SHOW wal_keep_segments 检查参数设置。此外可通过 SHOW wal_segment_size 获知单个WAL文件...

概述

数据冷存的几种模式 数据冷存是指将数据表/索引/物化视图转存入OSS,转存后不再占用或者极少量占用数据库云盘存储空间,从而大大降低数据库的存储成本。数据冷存后,所有的增删改查SQL都透明,无需做任何修改。PolarDB支持的数据冷存模式...

使用DMS和DG管理本地或第三方云数据库

背景信息 将本地或第三方云的数据库接入阿里云时,以下几种解决方案,但是均存在一定的局限性:通过专线、VPN网关或智能网关接入:成本较高,不适用于个人用户。将数据库的服务端口暴露至公网:存在被攻击的安全风险。自建代理转发服务...

使用DMS和DG管理本地或他云数据库

背景信息 将本地或第三方云的数据库接入阿里云时,以下几种解决方案,但是均存在一定的局限性:通过专线、VPN网关或智能网关接入:成本较高,不适用于个人用户。将数据库的服务端口暴露至公网:存在被攻击的安全风险。自建代理转发服务...

概述

数据冷存的几种模式 数据冷存是指将数据表/索引/物化视图转存入OSS,转存后不再占用或者极少量占用数据库云盘存储空间,从而大大降低数据库的存储成本。数据冷存后,所有的增删改查SQL都透明,无需做任何修改。PolarDB支持的数据冷存模式...

概述

数据冷存的几种模式 数据冷存是指将数据表/索引/物化视图转存入OSS,转存后不再占用或者极少量占用数据库云盘存储空间,从而大大降低数据库的存储成本。数据冷存后,所有的增删改查SQL都透明,无需做任何修改。PolarDB支持的数据冷存模式...

RDS SQL Server空间不足问题

数据空间的回收通常如下几种方式:归档数据 删除数据库中不常用的数据(例如早期的历史数据),或者根据需要迁移到其他数据库实例中,或者以其他形式归档保存,通过直接减少数据量来降低已使用数据空间大小。这种方式是控制数据空间增长...

开启和使用冷数据分层存储

数据冷存的几种模式 数据冷存是指将数据表/索引/物化视图转存入OSS,转存后不再占用或者极少量占用数据库云盘存储空间,从而大大降低数据库的存储成本。数据冷存后,所有的增删改查SQL都透明,无需做任何修改。普通表/索引/物化视图冷存 将...

开启和使用冷数据分层存储

数据冷存的几种模式 数据冷存是指将数据表/索引/物化视图转存入OSS,转存后不再占用或者极少量占用数据库云盘存储空间,从而大大降低数据库的存储成本。数据冷存后,所有的增删改查SQL都透明,无需做任何修改。普通表/索引/物化视图冷存 将...

开启和使用冷数据分层存储

数据冷存的几种模式 数据冷存是指将数据表/索引/物化视图转存入OSS,转存后不再占用或者极少量占用数据库云盘存储空间,从而大大降低数据库的存储成本。数据冷存后,所有的增删改查SQL都透明,无需做任何修改。普通表/索引/物化视图冷存 将...

使用Tunnel命令或Tunnel SDK

流式数据通道SDK主要接口以下几种。接口 描述 TableTunnel 访问MaxCompute Tunnel服务的入口类。您可以通过外网或阿里云内网环境对MaxCompute及其Tunnel进行访问。TableTunnel.StreamUploadSession 上传数据会话。TableTunnel....

查询报错问题

引起分析型数据库MySQL版查询不稳定的因素一般以下几种:用户执行SQL时首次较慢,之后查询明显比第一次快,这是因为分析型数据库MySQL版自身带缓存。第一次查询时会将数据缓存到内存中,若下次查询所需要的数据依然在内存中时,此时...

数据湖管理FAQ

您的库表中表的数量过多,有几千个表,可能会导致同步超时。同步超时的表没有索引字段或者整型UNIQUE KEY字段,导致Presto计算Split任务运行超时。解决方案:您可以调整建仓高级配置,设置并发数为 connections-per-job=1。详情请参见文档 ...

同步Redis后出现数据不一致

说明 Redis处理过期keys的时机主要为以下几种:CPU空闲时清理过期keys。实际访问keys时会判断keys是否过期,并逐出过期keys。Scan命令扫描时判断keys是否过期,并逐出过期keys。关于Redis的详细清理策略,参考:Redis过期Key的处理。解决...

ECU详解

ECU分类 分析型数据库MySQL版中高性能和存储两类型的ECU。高性能:以字母C或者H开头的ECU为高性能实例,数据全部存储在SSD磁盘中。适用于对性能要求高、查询并发高的业务场景。存储:以字母S开头的ECU为存储实例,采用SSD/HDD...

客户案例

数据处理能力:随着阿里巴巴集团业务的高速发展,推广营销在商业引流上的重要性越发明显,报表作为营销产品的闭环,其诉求也越发的多样化、个性化,报表数据在近年的发展中在量级上已经增长到TB甚至数十 TB 的规模。这个时候存储系统的...

无锁结构变更方案对比

线上业务不建议直接进行DDL操作,通常有几种做法来避免影响业务:业务低峰期变更:合适的变更窗口以及窗口长度直接影响变更结果。过的表由于在变更窗口内未执行完成,仍将影响业务。备库修改后切换主备:需要存在主备实例,并能够在合适...

Serverless Presto概述

种数据源创建库、表的选项稍不同,可以阅读 连接数据源 下面的文档来查看建每种数据源库表的具体写法。DLA的Presto Clusters集群是兼容社区Presto的,关于函数的具体定义可以参考社区文档。Presto Clusters集群下面可以接入各种数据源...

湖仓一体

目前仅三种数据源支持定时刷新:HMS:Hive Metastore。ES:Elasticsearch。JDBC:数据库访问的标准接口(JDBC)。设置catalog刷新间隔为20秒 CREATE CATALOG es PROPERTIES("type"="es","hosts"="http://127.0.0.1:9200","metadata_refresh...

索引优化

大数据集场景下优先考虑稀疏索引:如果您的数据量非常地大,并且您的查询限定条件为<、、=、>=、>,需要从大数据量的表中取出少于50%的数据,那么使用稀疏索引(BRIN Index或者AOCS表的metascan)可以极地减少无效数据的加载。...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统,E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS,其中OssFileSystem和JindoFS都是云上存储的解决方案,下表为这三存储系统和开源OSS各自的特点。特点 开源OSS E-...

系统函数分类

函数分类 数据探索系统函数的类型包含分为以下几种:函数类型 说明 时间函数 处理日期、时间类型数据,实现加减日期、提取日期字段、获取当前时间、转换日期格式等业务处理能力。字符串函数 处理字符串类型数据,实现截取字符串、替换字符...

typeconv-overview

在 SQL 解析器里,基本的 SQL 结构要求独立的类型转换规则:函数调用 本数据库类型系统的部分建立在一套丰富的函数上。函数可以一个或多个参数。由于本数据库允许函数重载,所以函数名自身并不唯一地标识将要被调用的函数,解析...

Insert Into

但Insert Into默认的超时时间,如果您预估的导入数据量过,需要修改系统的Insert Into导入超时时间。例如,当导入数据量为36 GB时,导入时间约小于等于3600s*10 M/s。其中10 M/s是最大导入限速,您需要根据当前集群情况计算出平均的...

权限说明

例如进行权限查询,角色管理时提示对应操作没有权限,错误码为NoPermission,有几种途径可以解决问题 授予用户数据湖admin/super_administrator角色。参考 角色管理。授予用户dlf-dss权限,DLF在RAM上已内置AliyunDLFDSSFullAccess及...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
云数据库 RDS 数据传输服务 数据库备份 DBS 云服务器 ECS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用