EMR元数据迁移公告

阿里云EMR团队发现部分用户在EMR集群上,仍然使用本地MySQL和统一meta数据库(旧版功能)作为生产环境的Hive元数据存储。我们强烈建议您尽快迁移到数据湖构建DLF中,原因如下:本地MySQL是单机部署,无法保证服务高可用,容易造成服务中断...

独立RDS元数据

数据库名称>为 hive元数据库 名称。数据库用户名 填写hive元数据库中账号的用户名。数据库密码 填写hive元数据库中账号的密码。Metastore初始化 1.连接RDS元数据库,首先需要打通Databricks集群与MySQL实例的VPC和vSwitch网络。详情参见 ...

为Spark集群设置元数据

EMR on ACK支持使用数据元数据DLF(Data Lake Formation)和自建Hive Metastore元数据两种方式,为Spark集群设置元数据。本文为您介绍如何在EMR on ACK中设置Spark集群的元数据。背景信息 因为数据元数据DLF具有高可用和易维护的特点,...

CDH6与文件引擎集成

三、安装HIVE服务 安装MySQL数据库,并创建用来存储hive元数据信息的数据库。登入CDH6任意的一台机器,执行如下指令,进行安装。切换到 root sudo su-#下载 MySQL的rpm 源 root@cdhlindorm001~/tool$wget ...

Hive服务内存参数调整

关于不同元数据的更多信息,请参见 Hive元数据说明。调整Hive服务内存步骤 在集群Hive组件页面,单击 配置,输入配置项名称进行修改。调整HiveMetaStore内存。调整 hive_metastore_heapsize(默认内存500 MiB),例如2048(代表2 GiB内存)...

Dataphin离线管道中Hive输出组件配置后报错“获取...

问题原因 Hive元数据meta的mysql数据库的连接数达到了设置的最大连接数量,导致新的hive连接无法连接到meta库,从而报错获取元数据失败。解决方案 将Hive的meta mysql库的最大连接数上限调大一些,一般建议设置为1000(通常默认值是200)。...

EMR Hive功能增强

支持Hive元数据和作业运行信息输出至DataWorks。EMR-4.5.0 Hive 3.1.2 支持数据湖构建(DLF)元数据。支持Ranger Ownership权限。EMR-4.4.1 Hive 3.1.2 优化默认的参数配置。EMR-4.4.0 Hive 3.1.2 升级至3.1.2版本。优化JindoFS。优化MSCK...

Hive使用扩展记录数据血缘和访问历史

hivemetastore-site.xml hive.metastore.event.listeners 监听Hive元数据变更的事件信息,用于数据血缘。开启EMR-HOOK时,参数值填写为 com.aliyun.emr.meta.hive.listener.MetaStoreListener关闭EMR-HOOK时,参数值置为空。hive....

Hive元数据基本操作

本文为您介绍Hive元数据的基本操作,包括新建库、删除库、新建表和删除表。前提条件 已创建集群,详情请参见 创建集群。新建库 进入元数据管理页面。登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击...

Paimon数据

Hive Metastore:元数据存储Hive Metastore中,您可以直接从Hive访问这些表。基于FileSystem创建Catalog 重要 SelectDB 2.X及之前版本,请参见 基于Hive Metastore创建Catalog。此处以HDFS为例:CREATE CATALOG `paimon_hdfs` PROPERTIES...

配置E-MapReduce服务使用文件存储 HDFS 版

Hive的元数据存储在MySQL,进入存储Hive元数据的MySQL数据库hivemeta,修改CTLGS表、DBS表和SDS表相应的值。执行 use hivemeta 命令,进入存储Hive元数据的MySQL数据库hivemeta。修改表CTLGS中的数据。执行 select*from CTLGS 命令,查询表...

使用E-Mapreduce访问

Hive的元数据存储在MySQL中,进入存储Hive元数据的MySQL数据库hivemeta中,修改DBS表和SDS表,如下所示。MariaDB[(none)]>use hivemeta;修改表“DBS”MariaDB[hivemeta]>select*from DBS;DB_ID|DESC|DB_LOCATION_URI|NAME|OWNER_NAME|OWNER...

管理Hive Catalog

配置Hive Catalog后,您可以在Flink开发控制台直接读取Hive元数据,无需再手动注册Hive表,提高作业开发的效率且保证数据的正确性。本文为您介绍如何配置Hive元数据、创建和使用Hive Catalog等。背景信息 您可以将Hive Catalog配置文件和...

修改集群模版

UseLocalMetaDb Boolean 否 true 是否使用本地Hive元数据库,取值如下:true:使用本地Hive元数据库。false:不本地Hive元数据库。IoOptimized Boolean 否 true 是否开启I/O优化,取值如下:true:开启I/O优化 false:不开启I/O优化 ...

External Catalog

paimon.catalog.type 是 Paimon Catalog类型,可选值为:hive:使用Hive MetaStore存储元数据。filesystem:使用filesystem存储元数据。dlf:使用DLF存储元数据。paimon.catalog.warehouse 是 warehouse所在路径,支持HDFS、OSS和OSS-...

创建集群模板

MetaStoreType String 否 user_rds Hive元数据服务类型,取值如下:local:集群内部MySQL服务,MySQL单节点不保证高可用 user_rds:用户自建RDS服务 dlf:DLF元数据服务 MetaStoreConf String 否 {"dbUrl":"jdbc:mysql:/rm-xxxxxxxxxx....

使用Presto访问

Presto支持在线数据查询,包括Hive、Cassandra、关系数据库以及专有数据存储。说明 本文中Presto是通过连接Hive元数据服务来读取文件存储HDFS上的数据,在文件引擎上使用Presto时需要额外配置一些依赖包,详细操作步骤请参见 配置Presto...

Hive数据导入

功能介绍 AnalyticDB MySQL版 湖仓版(3.0)支持新建Hive数据迁移任务,通过迁移任务将Hive元数据数据一键迁移到OSS,或多库多表并行迁移到OSS。前提条件 已创建 AnalyticDB MySQL 湖仓版(3.0)集群。具体操作,请参见 创建湖仓版(3.0...

在文件存储 HDFS 版上使用Presto

connector.name=hive-hadoop2 hive.metastore.uri=thrift:/xxxx:9083#xxxx为启动 hive 元数据服务的ip地址 hive.config.resources=path/to/core-site.xml#请替换为该节点上已挂载文件存储HDFS版的Hadoop core-site.xml路径 编译并替换JAR包...

DLF统一元数据

切换元数据存储类型 您可以通过修改Hive参数的方式,切换Hive MetaStore的存储方式。说明 如果需要迁移数据库的元数据信息,请参见 EMR元数据迁移公告。进入Hive服务页面。登录EMR on ECS控制台。在顶部菜单栏处,根据实际情况选择地域 和...

Hive数据迁移

meta api访问并发量 访问Hive MetaStore的并发量,⽤于提⾼获取Hive元数据的速度。表黑名单,格式为db.table 不需要迁移的Hive数据库表。单个表的格式为 dbname.tablename,多个表之间以英⽂逗号分隔。表白名单,格式为db.table 需要迁移的...

创建集群

MetaStoreType String 否 local Hive元数据服务类型,取值如下:local:集群内部MYSQL服务,MYSQL单节点不保证高可用。user_rds:用户自建RDS服务。dlf:DLF元数据服务。MetaStoreConf String 否 {"dbUrl":"jdbc:mysql:/rm-xxxxxxxxxx....

配置CDH6使用文件存储 HDFS 版

本文以修改Hive服务元数据存储在MySQL中的数据为例,修改DBS表和SDS表相应的存储系统的URL。执行 use metastore;命令,进入存储Hive元数据的MySQL数据库。修改表DBS中的数据。执行 SELECT*FROM DBS LIMIT 5;命令,查询表DBS中的数据。返回...

迁移服务(MMA)

Metastore访问并发量 访问Hive MetaStore的并发量,⽤于提⾼获取Hive元数据的速度。表黑名单 不需要迁移的Hive数据库表。单个表的格式为 dbname.tablename,多个表之间以英⽂逗号分隔。表白名单 需要迁移的Hive数据库表。单个表的格式为 ...

Hudi连接器

Hudi是一种数据湖的存储格式,在Hadoop文件系统之上提供了更新数据和删除数据的能力,以及消费变化数据的能力。EMR Trino已经将相关JAR包集成至独立的Hudi Plugin里面,EMR Hudi连接器目前支持查询COW和MOR表。背景信息 EMR Hudi的详细信息...

Paimon数据

paimon.catalog.type 是 Paimon使用的元数据类型,取值为:hive:使用Hive MetaStore存储元数据。filesystem:使用filesystem存储元数据。paimon.catalog.warehouse 是 warehouse所在路径,支持HDFS、OSS和OSS-HDFS。hive.metastore....

事件告警

告警的处理方式 元数据空间不足 告警原因 元数据空间指的是SMB或NFS共享所对应的缓存盘中用于存储元数据的空间,主要包括目录结构等信息,文件数目越多,使用的元数据空间也就越大。共享使用的缓存盘由数据空间和元数据空间组成,默认20%的...

参数配置

本文为您介绍FE、BE、Broker以及系统参数的部分配置项以及修改方式。背景信息 配置项分为动态参数和静态参数。动态参数主要是FE有部分动态配置,支持在线修改。静态参数是需要重启服务生效的配置项。本文为您介绍以下内容:FE配置项 FE动态...

参数配置

根据参数的生效方式,它们被划分为静态参数和动态参数两类。静态参数在修改后需要重新启动服务才能生效,而动态参数则允许立即生效,无需重新启动服务。FE动态参数 LOG相关配置 参数 默认值 描述 qe_slow_log_ms 5000 Slow query的认定时长...

Hive连接方式

本文为您介绍在E-MapReduce集群提交Hive SQL的三种方式。前提条件 已创建集群,且选择了Hive服务,详情请参见 创建集群。注意事项 本文示例中需替换的参数:<主节点的节点名称>:您可以在EMR控制台目标集群的 节点管理 页面获取,具体操作...

Paimon与Spark集成

表明您正在使用Paimon作为数据存储格式来读取或写入数据。oss:/<yourBucketName>/warehouse/test_db.db/test_tbl:Paimon表所在路径,请根据实际情况进行替换。返回信息如下所示。uuid|name|price|+-+-+-+|1|apple|3.5|2|banana|4.0|3|...

OSS-HDFS元数据管理费用

OSS-HDFS服务是一款云原生数据存储产品。基于统一的元数据管理能力,在完全兼容HDFS文件系统接口的同时,提供充分的POSIX能力支持,能更好地满足大数据和AI等领域的数据湖计算场景。说明 本文仅说明相关计费项及付费方式。有关计费项的...

元数据仓库共享模型概述

元数据共享模型存储方式及产出时效说明 元数据共享模型是一系列元数据相关的物理表,基于Dataphin的系统元数据和相应计算引擎的元数据加工汇总而成,存在Dataphin仓租户下的仓项目中,产出时效为T+1。背景信息 什么是元数据仓库?...

Hive元数据说明

DLF统一元数据 元数据存储在阿里云数据湖构建(Data Lake Formation,简称DLF)中。数据湖构建具有高可用、免运维和高性能等优点,兼容Hive Metastore,无缝对接EMR上开源计算引擎,并支持元数据多版本管理和Data Profile功能。另外,DLF还...

EMR-3.33.x版本说明

支持Hive元数据和作业运行信息输出至DataWorks。Metastore 新增Hive Statistics功能。HCatalog支持Data Lake Formation。优化STSToken的获取方式。HDFS 升级jQuery至3.5.1版本。YARN 升级jQuery至3.5.1版本。调整Fair Scheduler配置。优化...

Hive统一元数据

EMR-2.4.0之前版本,所有集群采用的是集群本地的MySQL数据库作为Hive元数据库;EMR-2.4.0及后续版本,E-MapReduce(简称EMR)支持统一的高可靠的Hive元数据库。背景信息 因为元数据库需要使用公网IP来连接,所以集群必须要有公网IP,同时请...

概述

功能简介 使用智能媒体管理服务时,在授权允许的情况下,元数据管理功能可以根据您的需求分析存储在对象存储(OSS)、相册与网盘服务(PDS)等产品中的文件,采集文件元数据并将元数据索引到元数据存储引擎中,为您提供强大的文件查询、...

Hive概述

Hive是一个基于Hadoop的数据仓库框架,在大数据业务场景中,主要用来进行数据提取、转化和加载(ETL)以及元数据管理。背景信息 E-MapReduce(简称EMR)版本中,Hadoop、Hive版本和EMR集群的配套情况,请参见 版本概述。Hive结构 名称 说明...

使用RocksDB作为元数据后端

JindoFS元数据服务支持不同的存储后端,默认配置RocksDB为元数据存储后端。本文介绍使用RocksDB作为元数据后端时需要进行的相关配置。背景信息 RocksDB作为元数据后端时不支持高可用。如果需要高可用,推荐配置Tablestore(OTS)或者Raft...

使用RocksDB作为元数据后端

JindoFS元数据服务支持不同的存储后端,默认配置RocksDB为元数据存储后端。本文介绍使用RocksDB作为元数据后端时需要进行的相关配置。背景信息 RocksDB作为元数据后端时不支持高可用。如果需要高可用,推荐配置Tablestore(OTS)或者Raft...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
对象存储 文件存储 CPFS 云数据库 RDS 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用