迁移场景

开源软件:开源软件指开发者从开源社区下载未做源码修改的软件或者所使用操作系统生态中默认携带的软件。当前大部分开源软件在倚天ARM平台上已经提供较好的应用生态,您可以直接使用操作系统提供的开源生态软件来安装部署。更多信息,请...

开源软件迁移

当前大部分应用系统都基于开源软件构建,并且大部分的开源软件在倚天ARM平台上已经提供较好的应用生态,您可以直接使用操作系统提供的开源生态软件来安装部署。本文介绍Nginx、MySQL、Redis、TensorFlow、PyTorch等开源软件如何在倚天...

Lindorm for Cassandra应用实践

单行读:Lindorm的吞吐量约是开源Cassandra的13倍,延迟降低了52倍。范围读:Lindorm的吞吐量约是开源Cassandra的7倍,延迟降低了13倍。单行写:Lindorm的吞吐量约是开源Cassandra的1.6倍,延迟降低了2.7倍。范围写:Lindorm的吞吐量约...

Trino概述

Trino(即原PrestoSQL)是一个开源的分布式SQL查询引擎,适用于交互式分析查询。EMR-3.44.0和EMR-5.10.0版本开始改用社区正式名称Trino,之前各版本控制台显示为Presto,内核其实是Trino,使用时请注意区分。基本特性 Trino使用Java语言...

Flink(VVR)作业配置

VVR提供企业版StateBackend,性能是开源版本的3~5倍。在EMR Hadoop集群中,您可使用VVR引擎和EMR数据开发功能提交作业。VVR支持开源Flink 1.10版本,默认使用商业GeminiStateBackend,具备以下特性:采用创新的数据结构,提高随机查询、...

免费体验Lindorm宽表性能&价格力

Lindorm宽表引擎支持千万级高并发吞吐,支持百PB级存储,吞吐性能是开源HBase(Apache HBase)的3~7倍,P99时延为开源HBase(Apache HBase)的1/10,平均故障恢复时间相比开源HBase(Apache HBase)提升10倍,支持冷热分离,压缩率比开源...

产品优势

不支持 不支持 性能 吞吐性能 单机吞吐是开源HBase的7倍,详情请参见 测试结果分析。无 无 请求毛刺 P99延迟是开源HBase的1/10,详情请参见 测试结果分析。请求毛刺频繁 请求毛刺频繁 成本 存储成本 支持性能型、标准型、容量型等多种存储...

JindoFS实战演示

AI训练加速 文档链接 视频链接 视频发布时间 描述 Fluid+JindoFS对OSS上的数据进行训练加速 Fluid+JindoFS对OSS上的数据进行训练加速 2021-07-06 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎,主要服务于云原生场景下的...

管理事件

事件用于记录和通知云资源信息,包括资源异常、操作执行情况以及资源状态变化等。E-MapReduce(简称EMR)会记录当前集群资源发生的系统事件,并自动将其同步到云监控服务。您可以在EMR控制台查看集群的事件,并在云监控控制台中设置事件告...

扩缩容StarRocks

在使用EMR StarRocks时,您可以根据业务负载和性能需求的动态变化,灵活地增加或减少集群中Backend(BE)节点的数量,以实现资源的最优配置和系统的高效运行。本文为您介绍如何扩容和缩容StarRocks集群的BE节点。前提条件 已创建集群,详情...

动态加载UDF

操作流程 步骤一:环境准备 步骤二:增加UDF 步骤三:删除UDF 步骤一:环境准备 将UDF对应的JAR包文件放在对应的文件系统中。目前UDF文件支持以下两种方式:方式一:将UDF的全部内容打成一个JAR包(例如,udfjar.jar),上传到文件系统中。...

开源RabbitMQ迁移上云

在使用开源RabbitMQ集群时,当您希望能够解决各种稳定性痛点(例如消息堆积、脑裂等问题)、实现高并发、分布式、灵活扩缩容时,您可以将开源RabbitMQ集群迁移至 云消息队列 RabbitMQ 版,本文介绍迁移上云的前提条件、操作步骤、注意事项...

AI开源项目

阿里云开源的AI及大数据相关开源项目,如用于全自动分布式深度学习系统TePDist、NLP 开发和应用工具包EasyNLP等,您可以根据需要选择AI及大数据开源项目。PAI相关的开源项目信息请前往 阿里云大数据&AI开源项目。

Zeppelin常见问题

EMR Studio上的Zeppelin与开源版本一致吗?如何设置Zeppelin Note的权限?Zeppelin执行时无法正常启动Interpreter EMR Studio上的Zeppelin与开源版本一致吗?EMR Studio上的Zeppelin是增强版的Zeppelin,与开源版本不一致。E-MapReduce的...

StarRocks概述

高效更新 StarRocks支持明细模型、聚合模型、主键模型和更新模型,其中主键模型可以按照主键进行Upsert或Delete操作,通过存储和索引的优化可以在并发更新的同时实现高效的查询优化,更好的服务实时数仓的场景。智能物化视图 StarRocks支持...

概述

数据组织 ZooKeeper的数据组织方式与标准文件系统类似,组织成类似文件树的结构,在ZooKeeper中使用znode(ZooKeeper node)来描述文件,与标准文件系统不同的是,znode并不区分目录或者文件的概念,每个znode都可以存储数据。ZooKeeper...

参数说明

fs.oss.impl EMR-3.24.0及后续版本:com.aliyun.emr.fs.oss.JindoOssFileSystem EMR-3.24.0之前版本:com.aliyun.fs.oss.nat.NativeOssFileSystem OSS文件系统实现类。io.compression.codec.snappy.native false 标识Snappy文件是否为标准...

集群容灾能力

数据容灾 在Hadoop分布式文件系统(HDFS)中,每一个文件的数据均是分块存储的,每一个数据块保存有多个副本(默认为3),并且尽量保证这些数据块副本分布在不同的机架之上。一般情况下,HDFS的副本系数是3,存放策略是将一个副本存放在...

概述

MaxCompute Spark是MaxCompute提供的兼容开源Spark的计算服务。它在统一的计算资源和数据集权限体系之上,提供Spark计算框架,支持您以熟悉的开发使用方式提交运行Spark作业,满足更丰富的数据处理分析需求。使用限制 MaxCompute Spark支持...

开通EMR Doctor(Hadoop集群类型)

功能介绍 EMR Doctor是开源大数据集群的管家,提供了一站式的智能诊断和优化服务。通过EMR Doctor,您可以高效地运维大数据集群和服务,持续的优化集群的资源使用率,使集群处于健康稳定的状态,更好的为上层业务提供计算服务。EMR Doctor...

产品概述

EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统(例如,阿里云OSS和RDS等)进行数据传输。阿里云EMR提供了on ...

产品简介

EMR基于开源的Apache Hadoop和Apache Spark,让您可以方便地使用Hadoop和Spark生态系统中的其他周边系统分析和处理数据。EMR还可以与阿里云其他的云数据存储系统和数据库系统(例如,阿里云OSS和RDS等)进行数据传输。产品介绍 阿里云EMR...

EMR Studio概述

便捷集成 EMR Studio采用半托管的部署形态,您可以直接登录集群灵活操作和部署软件,可以将EMR Studio集成至已有系统。EMR Studio作为一款云上产品,支持与数据湖构建(DLF)和对象存储(OSS)等云上产品对接,构建云原生大数据产品架构。...

Hive SQL作业配置

本文介绍如何配置Hive SQL类型的作业。前提条件 已创建好项目,详情请参见 项目管理。操作步骤 进入数据开发的项目列表页面。...系统会自动为SELECT语句加上'limit 2000'的限制。select*from test1;单击 保存,作业内容编辑完成。

其他漏洞汇总说明

安全组规则的具体操作,请参见 添加安全组规则。禁止匿名访问,在配置文件/etc/emr/hadoop-conf/core-site.xml 中增加或修改以下配置项,然后重启HDFS和YARN服务。name>hadoop....

Attu操作指南

Attu是一款功能强大的开源数据库管理系统工具,专为Milvus向量数据库设计,提供直观易用的图形化界面,以简化数据库管理、集合(Collection)管理以及复杂的向量检索任务。前提条件 已完成网络安全设置,详情请参见 网络访问与安全设置。...

REMOTESHELL

该类型任务通过SSH方式将作业提交到SSH数据源所在主机,请务必谨慎操作。本文为您介绍创建REMOTESHELL类型任务时涉及的参数。重要 REMOTESHELL任务直接提交到SSH数据源所在的主机上运行,由于不涉及使用YARN等资源调度管理机制,无法实现对...

HDFS概述

HDFS(Hadoop Distributed File System)是一种Hadoop分布式文件系统,具备高度容错特性,支持高吞吐量数据访问,可以在处理海量数据(TB或PB级别以上)的同时最大可能的降低成本。HDFS适用于大规模数据的分布式读写,特别是读多写少的场景...

产品架构

仅Leader节点会对元数据进行写操作,Follower和Observer只有读取权限。Follower和Observer将元数据写入请求路由到Leader节点,Leader更新完数据后,会通过BDB JE同步给Follower和Observer。必须有半数以上的Follower节点同步成功才算元数据...

三方开源大语言模型

支持中英双语和多种插件的开源对话语言模型 moss-moon-003-base ChatGLM2开源双语对话语言模型 chatglm-6b-v2 ChatGLM2是开源中英双语对话模型 ChatGLM-6B 的第二代版本,在保留了初代模型对话流畅、部署门槛较低等众多优秀特性的基础之上...

释放集群

包年包月EMR集群到期前,如您不再使用集群,可选择释放ECS实例,在释放ECS实例时,系统将同时退还您EMR未使用部分的款项,您可以在阿里云控制台上方,选择 费用>订单 查看,具体请参见 退款说明。操作步骤 进入EMR on ECS页面。登录 E-...

退款说明

退款时,系统会根据您包年包月资源的选购情况进行结算。具体操作,请参见 退订方式说明。按量付费 按量付费是根据实际使用情况实时产生账单,因此不涉及退款。如果您不再需要使用按量付费实例,可以直接在EMR Serverless StarRocks控制台...

Hive作业配置

E-MapReduce默认提供了Hive环境,您可以直接使用Hive来创建和操作创建的表和数据。前提条件 已创建好项目,详情请参见 项目管理。已准备好Hive SQL的脚本,并上传到OSS的某个目录中(例如 oss:/path/to/uservisits_aggre_hdfs.hive)。...

EMR Serverless StarRocks商业化发布

EMR Serverless StarRocks介绍 EMR Serverless StarRocks是开源StarRocks在阿里云上的全托管服务,您可以通过EMR Serverless StarRocks灵活的创建和管理StarRocks实例以及数据。StarRocks作为一款兼容MySQL协议的OLAP分析引擎,提供了极致...

Spark Streaming作业配置

本文介绍如何配置Spark Streaming类型的作业。...您可以单击下方的+插入OSS路径,选择 文件前缀 为 OSSREF,从 文件路径 中进行浏览和选择,系统会自动补齐OSS上Spark Streaming脚本的路径。单击 保存,作业内容编辑完成。

SQL

选择 超时告警 策略,当任务运行时长超过设置的超时时长后,系统将向指定的告警组发送通知。选择 超时失败 策略,当任务运行时长超过设置的超时时长后,该任务实例会立即失败。数据源类型 选择对应的数据源。需要在 数据源中心 创建数据源...

快速使用EMR Notebook

EMR Notebook提供了全托管的兼容开源Jupyter的Notebook服务,同时内置了SQL Editor的功能。支持SparkSQL、Hive、StarRocks、PySpark等应用程序的开发和运行。本文以Hive查询为例,为您介绍如何使用EMR Notebook。前提条件 已完成系统角色...

SHELL

选择 超时告警 策略,当任务运行时长超过设置的超时时长后,系统将向指定的告警组发送通知。选择 超时失败 策略,当任务运行时长超过设置的超时时长后,该任务实例会立即失败。提交到Yarn执行 警告 该模式下,作业会被提交到EMR集群的YARN...

扩容磁盘

系统盘扩容完成后,您需要对扩容的磁盘进行扩展分区和文件系统操作,详情请参见 扩展分区和文件系统_Linux系统盘。说明 在扩展分区和文件系统过程中,如果 umount 命令运行失败,请先在集群上关闭 YARN 和 HDFS 服务。在Disk1操作时,如果...

FLINK

延时执行时间 延时执行时间,默认为0,即立即执行,设置了该值后才执行延时操作。单位:分。超时告警 该开关默认关闭。打开 超时告警 开关,可设定超时时长,并选择至少一个超时策略。选择 超时告警 策略,当任务运行时长超过设置的超时时...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
开源大数据平台 E-MapReduce 阿里邮箱 云数据库 RDS 商标服务 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用