使用Fuse-DFS挂载文件存储 HDFS 版

背景信息 Fuse-DFS是Hadoop项目自带的一个功能模块,提供了使用FUSE(用户空间中的文件系统)在UNIX文件系统上映射HDFS的功能,在官方提供的Hadoop预编译版本中不包含Fuse-DFS的功能模块,如需使用该功能需要手动编译该功能模块并添加到...

Parquet

Parquet是Apache开源项目Hadoop支持的一种列存储文件格式,同一份数据以ORC格式和Parquet格式存储时,其数据扫描性能要优于普通文本CSV格式。本文介绍如何在DLA中为Parquet类型的文件创建表。前提条件 请参见文档 文件格式转换,准备...

基于Hadoop集群支持Delta Lake或Hudi存储机制

步骤三:基于MaxCompute实时分析Hadoop集群数据 基于已创建的MaxCompute项目以及Hadoop集群表数据,创建External Project,用于Hadoop集群,并映射至已创建的MaxCompute项目。后续可通过映射的MaxCompute项目对External Project进行数据...

新建SPARK_SQL任务

前提条件 项目Hadoop计算源的Spark SQL服务配置已开启Spark SQL任务。更多信息,请参见 创建Hadoop计算源。操作步骤 在Dataphin首页,单击顶部菜单栏中的 研发。默认进入 开发 页面。按照下图操作指引,进入 新建SPARK_SQL任务 对话框。...

使用SQL管理外部项目

构建湖仓一体时,您需要创建外部项目(External Project)用于关联Hadoop集群,或关联DLF及OSS。本文为您介绍如何使用SQL方式对不同场景中已创建的外部项目、及其中的表进行管理,例如查询或更新表数据等操作。背景信息 您在通过DataWorks...

Hive连接方式

在pom.xml文件中配置项目依赖(hadoop-common 和 hive-jdbc)。本示例新增的项目依赖如下所示。dependency><groupId>org.apache.hive</groupId><artifactId>hive-jdbc</artifactId><version>2.3.9</version></dependency>...

自助建站方式汇总

环境类型 部署方式 说明 搭建Hadoop环境 手动搭建Hadoop环境 本教程介绍如何在Linux操作系统的ECS实例上快速搭建Hadoop伪分布式环境。更换镜像部署Windows环境 云市场镜像集成了操作系统和应用程序,您可以使用阿里云市场镜像快速部署ECS...

SQL常见问题

at org.apache.flink.fs.shaded.hadoop3.org.apache.hadoop.fs.aliyun.oss.AliyunOSSFileSystemStore.listObjects(AliyunOSSFileSystemStore.java:506)~?at org.apache.flink.fs.shaded.hadoop3.org.apache.hadoop.fs.aliyun.oss....

MapReduce常见问题

Hadoop中可以选择多个Node进行分布处理(一个Node表示一台机器),那么MaxCompute MapReduce进行分布处理时,该如何设置Node?不使用Combiner时输出正常,使用Combiner后Reduce没有输入,是什么原因?在MapOnly中,为什么程序没有指定输出...

Dataphin如何使用一个Hadoop集群为所有项目创建计算源...

概述 本文为您介绍Dataphin如何使用一个Hadoop集群为所有项目创建计算源从而提供计算与存储资源。详细信息 1.Dataphin一个计算源只可以被一个项目所绑定。2.通过创建不同的Hive DB从而创建不同的计算源来达到一个Hadoop集群创建多个计算源...

FE参数配置

大多数项目,Acceptors线程只需要1~2个,Selectors线程配置2~4个即可。Workers是阻塞性的业务逻辑,往往有较多的数据库操作,需要的线程数量较多,具体数量随应用程序的QPS和IO事件占比而定。QPS越高,需要的线程数量越多,IO占比越高,...

计算源概述

Hadoop 计算设置为Hadoop的租户支持创建以下计算源:离线计算源 Hadoop计算源:绑定Hadoop计算源的项目,支持规范建模、即席查询、Hive SQL任务、通用脚本等功能。创建Hadoop计算源,请参见 创建Hadoop计算源。实时计算源 Flink 计算源:...

MaxCompute+Hadoop搭建实践

本文以E-MapReduce的Hive为例,为您介绍在MaxCompute中如何创建外部项目,并查询Hadoop中的表数据。准备Hadoop数据源 创建Hadoop集群,具体操作请参见 开通阿里云EMR服务。进入Hive准备数据。使用Workbench方式登录集群主节点后,在终端...

Spark访问湖仓一体外部数据源

访问基于Hadoop外部数据源的外部项目 MaxCompute SQL访问外部项目表-hadoop_external_project 为外部项目,映射的是EMR的Hive数据库-访问非分区表 SELECT*from hadoop_external_project.testtbl;访问分区表 SELECT*from hadoop_external_...

数据类型版本说明

适用于从Hadoop迁移的MaxCompute项目,且该项目依赖的产品组件支持2.0数据类型版本。说明 阿里云其他产品或组件对数据类型的支持情况,请参见 组件与数据类型的兼容。选择数据类型版本 项目选择的数据类型版本影响范围如下:表的数据类型。...

2023年

本文为您介绍了MaxCompute 2023年内容更新的最新动态,基于此您可以了解MaxCompute中增加了哪些新功能、语法新特性和权限变更,提升项目开发效率。MaxCompute的重要功能发布记录请参见 产品重大更新。2023年12月更新记录 时间 特性 类别 ...

Spark Connector

在Spark的 conf 目录下创建 spark-defaults.conf 文件:cd$SPARK_HOME/conf vim spark-defaults.conf 文件内容示例如下:#在spark-defaults.conf配置账号 spark.hadoop.odps.project.name=doc_test spark.hadoop.odps.access.id=L*spark....

Flink(VVR)作业配置

在EMR Hadoop集群中,您可使用VVR引擎和EMR数据开发功能提交作业。VVR支持开源Flink 1.10版本,默认使用商业GeminiStateBackend,具备以下特性:采用创新的数据结构,提高随机查询、降低读磁盘I/O的性能。优化Cache策略,内存充足情况下热...

创建通用项目

项目是Dataphin的基本组织单元,是进行多用户隔离和访问控制的主要边界。您开通Dataphin服务后,需要通过项目使用Dataphin。本文为您介绍如何创建项目。背景信息 Dataphin支持以下两种开发模式的项目:Dev-Prod模式:完成项目的创建后,...

UDF(地理空间)

cd spatial-framework-for-hadoop mvn clean package-DskipTests-P java-8,hadoop-2.7,hive-2.1 复制构建好的JAR包。此JAR包包含开源地理空间UDF的所有方法。命令示例如下。cp hive/target/spatial-sdk-hive-2.1.1-SNAPSHOT.jar./spatial-...

网络开通流程

马来西亚(吉隆坡)德国(法兰克福)美国(弗吉尼亚)VPC IP或域名 RDS HBase集群 Hadoop集群 访问公网方案 通过项目管理编辑外部网络地址 对于常用的公网IP或域名(如aliyun.com),您可以直接通过MaxCompute控制台的 项目管理 进行添加与...

新建IMPALA_SQL任务

本文为您介绍如何基于Dataphin...附录:切换 任务类型 项目的离线引擎为Hadoop计算源且已开启Impala任务。支持IMPALA_SQL任务类型和HIVE_SQL任务类型的互相切换。按照下图操作指引,选择需要切换类型任务。单击 确定,即可完成任务类型切换。

对于外部项目的用户以及权限操作

如果是基于Hadoop外部数据源的外部项目,需要打开Hive兼容模式。set odps.sql.hive.compatible=true;添加用户。add user<阿里云账号>;阿里云账号 格式为 ALIYUN$,您可以通过 MaxCompute客户端(odpscmd)执行 list users;命令查看用户信息...

访问MaxCompute数据源

spark.hadoop.odps.project MaxCompute的项目空间名称。spark.adb.connectors Spark作业连接的数据源,固定为 odps。在弹窗中,选择 继续执行。步骤二:使用Spark SQL读写MaxCompute数据 输入以下语句,单击 执行SQL(F8),并在弹窗中,...

Hadoop MapReduce作业配置

本文介绍如何配置Hadoop MapReduce类型的作业。前提条件 已创建好项目,详情请参见 项目管理。操作步骤 进入数据开发的项目列表页面。通过阿里云账号登录 阿里云E-MapReduce控制台。在顶部菜单栏处,根据实际情况选择地域 和资源组。单击...

功能特性

基于Delta Lake或Hudi存储机制实现湖仓一体 Spark访问湖仓一体外部数据源 访问基于Hadoop外部数据源的外部项目。Spark访问湖仓一体外部数据源 基于External Volume处理非结构化数据 通过创建External Volume挂载OSS的路径,利用MaxCompute...

第三方教程

本文提供了轻量应用服务器在不同场景下的...轻量应用服务器快速建站指南 使用轻量应用服务器搭建博客环境 部署应用 在轻量应用服务器上部署SpringBoot项目 使用轻量应用服务器部署Hadoop云集群 基于轻量应用服务器+OSS的中小型应用运维实践

Spark批式读写Iceberg

操作步骤 新建Maven项目,引入Pom依赖。引入Spark及Iceberg的依赖,以下代码示例指定了Spark 3.1.1与Iceberg 0.12.0版本,使用provided引包编译,运行时使用集群上的软件包。groupId>org.apache.spark</groupId><artifactId>...

搭建与管理(基于Hadoop

本文为您介绍如何通过MaxCompute与Hadoop构建湖仓一体,以及管理湖仓一体项目。前提条件 已开通MaxCompute服务并创建MaxCompute项目。详情请参见 开通MaxCompute服务 和 创建MaxCompute项目。说明 如果已经开通了MaxCompute服务,直接使用...

使用Kettle调度MaxCompute

Dialect 固定选择 Hadoop Hive 2。自定义连接URL 连接MaxCompute项目的URL。格式为 jdbc:odps:<MaxCompute_endpoint>?project=。配置时删除符号。参数说明如下:<MaxCompute_endpoint>:必填。MaxCompute项目所属区域的Endpoint。各地域的...

MaxCompute/Hadoop物理视图和字段详情

本文为您介绍如何查看计算引擎为MaxCompute、Hadoop 时物理视图和字段资产详情。物理视图详情 请参见 搜索数据,进入物理视图详情页面。MaxCompute、Hadoop 引擎的物理视图展示信息基本一致,下图以MaxCompute物理视图为例。编号 描述 ① ...

JindoData版本说明

以访问OSS为例,使用Maven构建项目时,您可以参考依赖配置 jindosdk_ide_hadoop.md。例如,如果要在主流Linux上部署Hadoop集群,则需要将jindo-core-4.6.4.jar和jindo-sdk-4.6.4.jar添加到指定的classpath中。如果要在macOS上运行和调试,...

项目管理

创建E-MapReduce集群后,您可以在数据开发中创建项目,并在项目中进行作业的编辑和工作流的调度。新建项目之后,您可以对项目进行管理,为项目关联集群资源、添加项目成员以及设置全局变量。前提条件 已创建集群,详情请参见 创建集群。...

Pig作业配置

前提条件 已创建好项目,详情请参见 项目管理。已准备好Pig的脚本,示例如下。Licensed to the Apache Software Foundation(ASF)under one*or more contributor license agreements.See the NOTICE file*distributed with this work for ...

运行模式

其中 spark.hadoop.odps.access.id、spark.hadoop.odps.access.key 和 spark.hadoop.odps.end.point 无需配置,默认为MaxCompute项目的值(有特殊原因可显式配置,将覆盖默认值)。除此之外,spark-defaults.conf 中的配置需要逐条加到ODPS...

选择付费方式

某个Hadoop集群可能有1个管控节点以及5台计算节点,每台机器32核,相当于是32个CPU,5台计算节点就是160个CPU,对应标准的官方报价是每个月 24000元(此价格未包含折扣或者优惠)。MaxCompute无需考虑管控节点,比Hive性能快80%,且免运维...

搭建Windows开发环境

spark.hadoop.odps.project.name=<MaxCompute_project_name>spark.hadoop.odps.access.id=<AccessKey_id>spark.hadoop.odps.access.key=<AccessKey_secret>spark.hadoop.odps.end.point=<Endpoint>#Spark客户端连接访问MaxCompute项目的...

逻辑视图和字段资产详情

Dataphin数据表:为您展示表的 名称、对象类型、存储类型、逻辑表及逻辑视图的 所属板块/物理表及物理视图的 所属项目、负责人、存储量、生命周期(Hadoop集群的计算引擎不支持展示该信息)、描述、血缘来源 信息,同时您可以进行 查看血缘...

逻辑视图和字段资产详情

Dataphin数据表:为您展示表的 名称、对象类型、存储类型、逻辑表及逻辑视图的 所属板块/物理表及物理视图的 所属项目、负责人、存储量、生命周期(Hadoop集群的计算引擎不支持展示该信息)、描述、血缘来源 信息,同时您可以进行 查看血缘...

镜像表和字段详情

Dataphin数据表:为您展示表的 名称、对象类型、存储类型、逻辑表及逻辑视图的 所属板块/物理表及物理视图的 所属项目、负责人、存储量、生命周期(Hadoop集群的计算引擎不支持展示该信息)、描述、血缘来源 信息,同时您可以进行 查看血缘...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 视觉智能开放平台 弹性公网IP 短信服务 人工智能平台 PAI 物联网平台
新人特惠 爆款特惠 最新活动 免费试用