2022-09-19版本

作业状态集管理 SQL作业启动 JAR作业启动 Python作业启动 作业停止 定时调优 定时调优功能针对业务上有明显波峰波谷的Flink作业,对于这类作业我们支持用户在平台设置好自定义的定时策略,在用户需要的时间将作业自动调整到用户预先设定好...

设置调度器参数

假设集群只有一个8 vCPU的节点,如果Backfill周期设置为10s,则提交两个高优先级需要6 vCPU、运行时间为60 min的作业A和作业B后,再提交一个低优先级需要2 vCPU、运行时间为40 min的作业C时,作业运行情况如下:0s:开始调度,作业A开始...

SetSchedulerInfo-设置调度器信息

SchedInterval 指调度周期,单位:秒 调度周期指运行多个作业之间时间间隔,如设置为 60,表示本次作业开始运行 60 秒后才能开始运行下次作业。默认值:60 60 SchedMaxJobs integer 否 集群调度的最大作业数。若集群排队和运行的作业数总和...

Quota调度策略说明

可能存在一个大作业占用绝大部分资源,导致同Quota组其他作业一直处于排队等待被编译状态。说明 可通过查看logview确认作业运行状态,若子状态为 Waiting for cluster resource,则表示作业排队等待被编译。可通过设置单作业CU上限降低此...

Logview诊断实践

解决措施:需要优化设计SQL,减少分区的数量,包括:分区裁剪、过滤掉不需要读的分区、把大作业拆成小作业。如何判断SQL中分区剪裁是否生效,以及分区裁剪失效的常见场景请参考文章:分区剪裁合理性评估。产生原因二:小文件过多。产生小...

资源规划及规格选型

MaxCompute资源包含存储资源和计算资源(CU)两种,存储资源用于存储表或资源(Resource),计算资源用于运行作业。为实现以最低的费用,满足业务对存储资源、计算资源的需求,企业必须要根据自身情况合理规划资源。本文为您介绍如何规划...

包年包月资源隔离

50 50 算法开发项目 00:00:00~23:59:59 运营分析配额组 使用的人员多,需要一定的CU保障,有较为突出的CU请求波谷时段,会有一些大作业长时间占用资源。时段1:30 时段2:250 时段1:300 时段2:250 运营分析项目 时段1:00:00:00~09:00:00...

配置MaxCompute Studio

本地作业保存目录:MaxCompute Studio作业的本地保存路径。MaxCompute Studio的默认设置是本地用户目录下的.odps.studio\job 目录。说明 如果您保持默认值,请确认本地目录下.odps.studio\job 目录存在且具有写权限,否则后续确认配置时...

MapReduce支持SQL运行时执行模式

MaxCompute新增支持将MapReduce作业指定为SQL运行时(Runtime)执行模式,基于SQL运行时,MapReduce作业可以应用SQL引擎的各种新特性,实现之前不支持的功能。本文为您介绍如何将MapReduce作业指定为SQL运行时执行模式。背景信息 ...

2020年

通过该视图,使用人员可以快速定位运行时间较长的慢作业、资源消耗高的大作业,从而有针对性地进行作业优化或资源容量规划。2020-12-08 无。元数据视图列表 按量计费SQL支持日累计消费限制 MaxCompute发布按量计费SQL日累计消费限制功能,...

查询加速(MCQA)

海量数据明细查询分析 MCQA可以自动识别查询作业特征,既能快速响应,处理小规模作业,同时还可以自动匹配规模作业资源需求,满足分析人员分析不同规模和复杂度的查询作业的需求。需要探索的历史数据量、真正需要的有效数据量不大、...

流量镜像概述

例如,您可以复制VPC中ECS实例的网络流量,并将复制后的网络流量转发给指定的弹性网卡或私网传统型负载均衡CLB(Classic Load Balancer)实例。该功能可用于内容检查、威胁监控和问题排查等场景。支持流量镜像的地域 公有云支持的地域 区域...

作业调试

您可以使用作业调试功能模拟作业运行、检查输出结果,验证SELECT或INSERT业务逻辑的正确性,提升开发效率,降低数据质量风险。本文为您介绍如何进行Flink SQL作业调试。背景信息 您可以在Flink开发控制台使用作业调试功能本地验证作业逻辑...

EditJobTemplate-编辑作业模板

调用EditJobTemplate编辑作业模板。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 ...

SubmitJob-提交作业

调用SubmitJob在指定集群提交作业。接口说明 在集群提交作业前,请确认上传作业文件(如 job.sh)到集群。具体操作,请参见 CreateJobFile。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI ...

CreateJobTemplate-创建作业模板

调用CreateJobTemplate创建作业模板。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的 ...

ListJobTemplates-查询作业模板列表

调用ListJobTemplates查询作业模板列表。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 下表是API对应的授权信息,可以在RAM权限策略语句的...

通过Java SDK开发Spark应用

本文介绍通过Java SDK提交Spark作业、查询Spark作业的状态和日志信息、结束Spark作业以及查询Spark历史作业的操作步骤。前提条件 JDK为1.8及以上版本。已创建 湖仓版(3.0)集群。具体操作,请参见 创建湖仓版集群。已创建Job型资源组。...

网络拓扑概述

网络拓扑图可以清晰地展示网络中资源的连接和关系,可视化网络结构,帮助您快速了解您的云上网络架构,进行网络配置验证、网络问题排查和云网络资源统一运维。背景信息 当前阿里云上网络资源类型丰富,功能形态各异,大量网络资源分散在...

作业配置指南

Serverless Spark作业的描述格式为JSON格式,包含作业名称,JAR包路径以及作业配置参数等信息。本文主要介绍如何配置Serverless Spark任务格式。重要 云原生数据湖分析(DLA)产品已退市,云原生数据仓库 AnalyticDB MySQL 版 湖仓版支持...

Routine Load

首先需要创建一个Routine Load作业作业会通过例行调度,不断地发送任务,每个任务会消费一定数量的Kafka消息。注意事项 Routine Load支持访问无认证的Kafka,和通过SSL方式认证的Kafka。支持的消息格式为 CSV 或 JSON 格式。CSV的格式,...

安全白皮书

Hive Kerberos集群访问 Kerberos是一种计算机网络授权协议,用来进行身份认证,以保证通信的安全性。如果您的Flink作业要访问的Hive支持了Kerberos,则需要您先在实时计算控制台注册Hive Kerberos集群,然后在Flink作业中配置Kerberos集群...

常见问题

您可以根据以下步骤,通过DataFlow集群外的机器,提交作业到DataFlow集群:确保DataFlow集群和DataFlow集群外的机器网络互通。配置提交Flink作业的客户端的Hadoop YARN环境。DataFlow集群中的Hadoop YARN的软件安装目录是/opt/apps/YARN/...

AttachCluster最佳实践

0 背景 AttachCluster作业是批量计算最新推出的 作业类型。它结合了固定集群作业和AutoCluster作业的优势,既能自动管理集群生命周期,弹性伸缩资源,又能使用分布式缓存节省资源。本文的目的在于介绍在阿里云批量计算服务上运行...

使用HPL测试集群浮点性能

NB的大小和通信方式、矩阵规模、网络、处理器速度等有关系。一般通过单节点或单CPU测试可以得到几个较好的NB值,但当系统规模增加、问题规模变,有些NB取值所得性能会下降。因此建议在小规模测试时选择3个性能不错的NB值,再通过规模...

大数据实时计算性能调优服务

3.配合乙方计划,对系统、服务部署所需软硬件及网络资源依赖做好资源储备。1.调研实时场景和数据链路,初步评估优化可行性和方向。作业调优 1.协助乙方梳理代码逻辑、排查确认反压链路以及反压时间段。2.协助乙方排查数据源问题。1.根据...

计算机信息网络国际联网安全保护管理办法》(公安部...

2005年06月02日 来源:公安部(1997年12月11日国务院批准1997年12月30日公安部发布)第一章 总则 第一条 为了加强对计算机信息网络国际联网的安全保护,维护公共秩序和社会稳定,根据《中华人民共和国计算机信息系统安全保护条例》、《中华...

拓扑感知调度

拓扑感知调度介绍 在机器学习或数据分析类作业中,Pod与Pod间通常有较网络通信需求。默认情况下,原生Kubernetes调度器会将Pod均匀打散在集群的每台机器上,这样会增大Pod间的通信距离,导致作业完成时间变长。为了优化此类作业的...

注册Hive Kerberos集群

背景信息 Kerberos是一种计算机网络授权协议,用来进行身份认证,以保证通信的安全性。如果您的Flink作业要访问的Hive支持了Kerberos,则需要您先在Flink全托管控制台上注册Hive Kerberos集群,然后在Flink作业中配置Kerberos集群信息,...

DataWorks on EMR数据安全方案

数据领域,阿里云为企业用户提供了一整套数据安全方案,包含用户认证、数据权限、数据作业管理体系等。本文以联合使用DataWorks与EMR为例,为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

工作流调度Zeppelin Notebook

在Databricks数据开发中,您可以在项目空间的作业编辑中创建一组有依赖的 Zeppelin 作业,然后创建工作流,按照依赖次序定义执行顺序,Databricks工作流支持基于有向无环(DAG)并行执行数据作业。前提条件 通过主账号登录 阿里云 ...

作业类型

作业概述 固定集群作业 优点:集群支持分布式缓存,适用规模作业的场景;缺点:需要您花费精力管理集群资源生命周期。自动集群作业 优点:您无需花费精力管理集群,由批量计算自动管理集群生命周期;缺点:集群间无法共享分布式缓存数据...

YARN资源配置

组件名 配置文件 配置项 生效范围 备注 ResourceManager yarn-env.sh YARN_RESOURCEMANAGER_HEAPSIZE 集群 最小1024,如果小作业较多则需要继续调该参数值,调整后需要重启ResourceManager组件生效。NodeManager yarn-env.sh YARN_...

企业级状态后端存储介绍

GeminiStateBackend具有存储计算分离的技术,使得状态存储可以不依赖于本地盘,可以避免因本地状态数据过而引发作业故障的问题。有关存储计算分离相关配置,请参见 存算分离配置。支持KV分离,大幅提升双流或多流Join作业的效能。双流或...

作业编辑

Spark-Submit内存消耗作业过多会造成Header节点资源紧张,导致整个集群不稳定。在Worker节点提交 Spark-Submit进程运行在Worker节点上,占用YARN的一个Container,受YARN监控。此模式可以缓解Header节点的资源使用。在E-MapReduce集群...

工作流使用案例

在Databricks数据开发中,您可以在项目空间的作业编辑中创建一组有依赖的作业,然后创建工作流,按照依赖次序定义执行顺序,Databricks工作流支持基于有向无环(DAG)并行执行数据作业。前提条件 通过主账号登录 阿里云 Databricks控制台...

功能与优势

您可以进行细粒度资源管理,支持SQL算子级别的精细化资源(CPU和Memory)配置,规模作业资源利用率提升100%。付费类型 您可以根据自身业务特点,选择包年包月或者按量付费。特色能力 数据实时入湖入仓 支持整库实时同步、分库分表实时...

作业状态集管理

系统检查点(Checkpoint)和作业快照(Savepoint)统称为状态集。本文为您介绍如何管理作业的状态集,包括创建、查看、删除和从指定状态恢复。背景信息 概念 详情 系统检查点(对应Apache Flink中的Checkpoint)生命周期完全由Flink系统...

2022-03-04版本

企业级状态后端存储介绍 企业级状态后端存储配置 系统检查点或作业快照的超时与失败 性能优化 企业级状态存储后端在本次新版本中包含了大量优化,极提升了双流或多流Join作业的性能,计算资源利用率平均可以提升50%,典型场景下可以提升...

监控指标说明

JM所在的JVM创建后,加载类的总数或卸载类的总数过,会导致占用过的内存空间,从而影响作业性能。无 TM资源 指标 含义 详情 单位 TM CPU Load 单个TM CPU的负载。指一段时间内CPU正在处理以及等待CPU处理的进程数之和的统计信息。通常...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
共享流量包 NAT网关 负载均衡 高速通道 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用