使用Azkaban调度MaxCompute

MaxCompute支持您通过Azkaban实现作业调度,帮助您高效地完成高频数据分析工作。本文以通过MaxCompute客户端执行命令(Command)的方式为例为您介绍如何使用Azkaban调度SQL作业。背景信息 Azkaban是一套作业调度系统,可以调度Command、...

DataWorks on EMR数据安全方案

数据领域,阿里云为企业用户提供了一整套数据安全方案,包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例,为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

周期性调度作业概述

如果您希望周期性运行MaxCompute作业,可使用DataWorks的DataStudio开发周期性MaxCompute作业,并配置周期性调度的时间属性、调度依赖等配置项,将作业整体提交至DataWorks的运维中心进行周期性调度。本文为您概要介绍当前使用DataWorks...

定期调度Jupyter中的作业

当您在Jupyter里完成作业开发后,您就可以通过Airflow定期调度作业。本文为您介绍如何将Jupyter中编写的Notebook,生成调度任务并定时执行。前提条件 已创建EMR Studio集群。创建集群详情,请参见 创建集群。安全组规则已开启8000、8081和...

定期调度Zeppelin中的作业

当您在Zeppelin里完成作业开发后,您就可以通过Airflow定期调度作业。本文为您介绍如何使用Airflow调度作业。前提条件 已创建EMR Studio集群。创建集群详情,请参见 创建集群。安全组规则已开启8000、8081和8443端口。添加安全组规则,详情...

使用ECI弹性调度Flink作业

使用阿里云弹性容器实例(Elastic Container Instance)调度Flink作业,可以不受限于ACK集群的节点计算容量,灵活动态地按需创建Pod(容器组),有效地降低计算成本。本文为您介绍如何使用ECI弹性调度Flink作业。背景信息 如果您需要使用更...

MaxCompute作业概述

MaxCompute中数据开发作业主要存在以下三种类型:周期性调度作业数据集成作业数据分析作业。典型场景 创建作业:创建ODPS SQL节点、数据传输作业数据集成、数据分析作业。查看作业运行信息:使用Logview查看作业运行信息、在...

实现开发生产等多套环境隔离

其中:DataWorks用于管理大数据作业的开发、运维、调度。2个EMR集群分别用于开发和生产环境。OSS用于存储实际数据。DLF用于存储管理元数据。实现的主要方式如下文所示。DLF的环境隔离 在DLF中创建两个 数据目录(catalog),一个用于存储...

快速体验

任务运维 使用DataWorks的 运维中心,周期性调度数据同步、清洗加工任务流程,获得每日的最新业务数据,同时可以监控每日任务运行的状态。数据治理 使用DataWorks的数据地图、数据质量、数据保护伞等功能,实现查看管理元数据、监控数据...

使用ECI弹性调度Spark作业

使用阿里云弹性容器实例(Elastic Container Instance)调度Spark作业,可以不受限于ACK集群的节点计算容量,灵活动态地按需创建Pod(容器组),有效地降低计算成本。本文为您介绍如何使用ECI弹性调度Spark作业。背景信息 如果您需要使用更...

拓扑感知调度

拓扑感知调度介绍 在机器学习或大数据分析类作业中,Pod与Pod间通常有较的网络通信需求。默认情况下,原生Kubernetes调度器会将Pod均匀打散在集群的每台机器上,这样会增大Pod间的通信距离,导致作业完成时间变长。为了优化此类作业的...

数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库,支持在多种工具上使用MaxCompute运行大数据计算分析作业。如果您需要进行简单的查询等数据分析作业,推荐您使用SQL查询或DataWorks的临时查询等工具,高效便捷地完成数据分析...

其他问题

为什么不能在调度资源组上进行大数据计算?其他 如何设置任务优先级?如何查看任务优先级?周期任务与周期实例、补数据实例、测试实例是什么关系?DataWorks每晚将根据周期任务,批量生成第二天自动调度的周期实例,周期实例自动生成并且...

采集数据

本教程以MySQL中的用户基本信息(ods_user_info_d)表及OSS中的网站访问日志数据(user_log.txt)文件,通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例,为您介绍如何通过DataWorks数据集成实现异构...

采集数据

本教程以MySQL中的用户基本信息(ods_user_info_d)表及OSS中的网站访问日志数据(user_log.txt)文件,通过数据集成离线同步任务分别同步至MaxCompute的ods_user_info_d、ods_raw_log_d表为例,为您介绍如何通过DataWorks数据集成实现异构...

使用Kettle调度MaxCompute

步骤五:查看作业调度结果 作业调度流程运行完成后,通过简单SQL脚本查看数据是否成功写入目标表中。在Spoon界面单击 主对象树 页签,在创建的Kettle作业(例如mc)下单击 DB连接。在创建的数据连接(例如MaxCompute)上单击右键,选择 SQL...

新用户必读

作业调度:云原生数据仓库AnalyticDB MySQL版 湖仓版(3.0)具备离线SQL应用、Spark应用的作业调度能力,帮助您完成复杂的ETL数据处理。SQL手册:详细介绍 AnalyticDB MySQL 支持的数据类型、SQL语法以及示例。系统函数:介绍 AnalyticDB ...

计算资源使用

数据作业隔离 补数据作业即重刷数据作业,如果需要补很长时间的数据则会消耗很多资源,但是又不希望影响日常作业运行,那么您可以单独创建一个 Quota并设置好规则专门运行补数据作业。例如,DataWorks的调度任务发起补数据作业固定会传...

DMS作业调度

本文介绍 AnalyticDB PostgreSQL版 如何通过DMS的作业调度功能,实现定时调度RDS PostgreSQL数据库的数据。功能介绍 本次作业调度使用OSS作为中间态的存储,调度任务会将数据从RDS PostgreSQL数据库加载到OSS上,再使用 AnalyticDB ...

查看调度资源大盘

数据统计范围 关于调度资源大盘的数据统计频率和数据统计范围说明如下:数据统计频率:每分钟统计1次。针对分配资源,取当前时间点的快照值;针对消耗资源,取过去1分钟内的峰值(即分钟内峰值)。每次页面刷新触发页面数据更新。数据统计...

工作流编辑

E-MapReduce工作流支持基于有向无环图(DAG)并行执行大数据作业,您可以通过E-MapReduce控制台管控工作流调度以及查看工作流的执行状态。背景信息 本文为您提供工作流编辑的相关操作介绍,具体如下:新建工作流 编辑工作流 配置工作流调度...

作业运行常见问题

导致MaxCompute作业运行时长不达预期(作业运行慢)的原因通常可分为资源不足、作业问题、模式回退三种:资源不足 对于使用 包年包月 计算资源的作业,可能由于总体作业运行数据、申请资源多、作业优先级低而导致该作业出现资源等待...

通过DataWorks管理作业

Lindorm计算引擎兼容CDH(Cloudera's Distribution Including Apache Hadoop),支持通过大数据开发治理平台DataWorks开发、管理、调度、运维分布式计算作业作业类型包括交互式SQL查询、SQL作业、JAR作业、Python作业等。本文介绍如何...

调度原理

本视频向您介绍日志服务数据加工的数据调度原理。

工作流调度Zeppelin Notebook

在Databricks数据开发中,您可以在项目空间的作业编辑中创建一组有依赖的 Zeppelin 作业,然后创建工作流,按照依赖次序定义执行顺序,Databricks工作流支持基于有向无环(DAG)并行执行大数据作业。前提条件 通过主账号登录 阿里云 ...

开通DataWorks服务

开通DataWorks服务后,在使用DataWorks的各项服务时,不同产品服务的功能模块(例如,任务开发、定时任务调度数据同步任务调度规模工作流监控、数据质量监控、数据服务API调用)会根据使用量和占用的资源量进行按量计费。详情请参见 ...

DataWorks按量计费概述

例如在DataWorks进行任务开发、定时任务调度数据同步任务调度规模工作流监控、数据质量监控、数据服务API调用等操作。重要 当实例欠费后有停机风险,系统会提醒或通知您,请及时续费,避免对您的服务造成影响。公共调度资源组、公共...

Task快速重启配置

然而,在一些作业中,Task Failover后还需要下载资源文件或者State数据。如果作业并发很高,所有Task进行一轮Failover的调度时间可能也会比较长。这些都会导致作业出现延迟或阻塞,一段时间内无法正常消费数据等问题,恢复正常运行所需的...

使用 Gang Scheduling

ACS 为作业调度场景提供了 Gang Scheduling 能力,满足作业调度场景 All-or-Nothing 需求。本文介绍如何使用 Gang Scheduling。功能介绍 作业(Job)一般会创建多个 Pod,并且这些 Pod 需要协调一致地启动运行。这要求在调度时一定要按照一...

数据开发常见问题

问题分析:作业Task数目过多或Spark Executor数目过多,导致AppMaster调度启动Task的时间过长,单个Task运行时间较短,作业调度的Overhead较。解决方法:减少Task数目,使用CombinedInputFormat。提高前序作业产出数据的Block Size(dfs....

云原生AI套件概述

云原生AI套件以Kubernetes容器服务为底座,向下封装对各类异构资源的统一管理,向上提供标准Kubernetes集群环境和API,以运行各核心组件,实现资源运维管理、AI任务调度和弹性伸缩、数据访问加速、工作流编排、大数据服务集成、AI作业生命...

资源规划及规格选型

同时,由于通过DataWorks或Dataphin运行调度作业还会产生很多延迟时间、作业获取计算资源也会耽误很多时间,这部分延迟时间会加大作业之间运行的时间间隔,真正用于运行作业的时间会小于N。W/N的分母实际变、分子实际变小,进而变相地...

如何管理应用级别的资源和任务优先级

应用场景 应用级别的资管和任务优先级管理主要适用于业务、数据规模较调度场景。例如,一个数据平台的应用,每天夜里会执行成千上万的报表,如果没有资源管理,应用可能会因为超负荷而发生故障。同时,一些核心报表也可能会有极强的...

开发和调试

outputs:存放作业的输出数据,如果本地 warehouse 中存在输出表,outputs 中的结果数据作业执行完后会覆盖本地 warehouse 中对应的表。resources:存放作业使用的资源,与输入类似,优先取自本地的 warehouse,如果本地没有,会通过...

设置调度器参数

调度器是集群上调度作业的软件,负责分发作业、处理作业优先级、按需分配计算节点资源(如vCPU、内存、节点个数)等。您可以根据作业大小,预估使用的节点资源和作业完成时间,设置集群的调度器参数,从而提高资源使用率。本文介绍如何在...

DataWorks模块使用说明

开放平台概览 任务备份、迁移-迁移助手 DataWorks迁移助手支持将开源调度引擎的作业迁移至DataWorks,支持作业跨云、跨Region、跨账号迁移,实现DataWorks作业快速克隆部署,同时DataWorks团队联合大数据专家服务团队,上线迁云服务,帮助...

在工作空间创建数据源或注册集群

仅MaxCompute、Hologres、AnalyticDB for PostgreSQL、AnalyticDB for MySQL3.0、ClickHouse数据源可用于数据开发,若您需基于该类数据源进行数据开发、任务调度数据分析等操作,则数据源创建完成后还需绑定至数据开发(DataStudio)。...

用户洞察常见问题

重新导入数据表:用户标签表、用户行为表、统计表、订单明细表、订单汇总表的导入均支持手动调度、日/小时周期调度、通过接口触发调度,导入调度配置请参见 调度任务。更新模型:RFM模型、AIPL模型支持手动更新、跟随底层数据调度更新,...

DataWorks on EMR Serverless StarRocks最佳实践

了解DataWorks on EMR Serverless StarRocks DataWorks作为阿里云一站式大数据开发治理平台,通过数据源对接EMR Serverless StarRocks,可实现EMR Serverless StarRocks的数据集成、作业周期性调度,同时结合StarRocks引擎在数据分析和数据...

EMR Studio概述

能够无缝关联EMR集群(EMR on ECS和EMR on ACK)的计算引擎提交任务,并提供了交互式开发、任务调度和任务监控等开源大数据开发使用体验。覆盖了大数据处理ETL、交互式数据分析、机器学习和实时计算等多种应用场景。EMR Studio核心优势 ...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 云数据库 Redis 版 云数据库 RDS 数据库备份 DBS 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用