状态机数据并行处理-状态机数据并行处理文档介绍内容-阿里云

流程定义介绍

循环（Map）：通过循环（Map）状态并行处理数组数据。成功（Succeed）：通过成功（Succeed）状态提前终止流程。失败（Fail）：通过失败（Fail）状态提前终止流程。流程属性流程包含以下属性。字段类型是否必选描述示例值 Type String ...

数据处理

不同处理方法可连接不同的上游节点，实现数据并行处理。参数说明处理方法编写JavaScript函数体，返回结果可为任意类型。表格中仅提供其他配置中的参数说明，其他参数配置请参见公共参数说明。输出结果：每个处理方法对相应上游节点的...

查询流程和执行计划

Stage的数据来源可以是底层存储系统中的数据或者网络中传输的数据，一个Stage由分布在不同Executor节点上相同类型的Task组成，多个Task会并行处理数据。说明 AnalyticDB MySQL版 SQL诊断功能支持对Stage级别进行结果诊断。更多详情，请参见...

如何高效扫描数据

PolarDB-X 1.0 支持高效的数据扫描方式，并支持在全表扫描时使用聚合函数进行统计汇总。本文介绍如何高效扫描 PolarDB-X 1.0 数据。常见的扫描场景没有分库分表：PolarDB-X 1.0 ...此时可开启最多12个会话（分别对应12张分表）并行处理数据。

存储管理

本介绍如何查看堡垒机磁盘数据状态和管理堡垒机中的数据信息。数据归档参照以下步骤使用数据归档：进入系统>存储管理>数据归档页面。在磁盘数据状态 下，查看磁盘空间使用量。在录像归档下，开启或关闭录像归档功能。您可以使用FTP或...

数据消费框架原理

初始化TunnelStateMachine，用于进行Channel状态机的自动化处理。固定间隔进行Heartbeat 心跳的间隔由TunnelWorkerConfig中的heartbeatIntervalInSec参数决定。进行Heartbeat请求，从Tunnel服务端获取最新可用的Channel列表，Channel中会...

OSS Load

send_batch_parallelism 用于设置发送批处理数据的并行度，如果并行度的值超过BE配置中的 max_send_batch_parallelism_per_job，那么作为协调点的BE将使用 max_send_batch_parallelism_per_job 的值。load_to_single_tablet 是否只导入数据...

扩展性原理

针对这类在线数据库上复杂SQL的处理，PolarDB-X 1.0 额外扩展了单机并行处理器（Symmetric Multi-Processing，简称SMP）和多机并行处理器（DAG）。前者完全集成在 PolarDB-X 1.0 内核中；而对于后者，PolarDB-X 1.0 构建了一个计算集群，...

使用跨机并行查询进行分析型查询

若设置该参数为N，则一个会话在每个节点上将会启用N个px workers进程，用于处理当前的跨机并行查询逻辑。px_workers 指定跨机并行查询是否对特定表生效。默认不生效。跨机并行查询功能比较消耗计算节点集群资源，因此只有对设置了px_...

使用跨机并行查询进行分析型查询

若设置该参数为N，则一个会话在每个节点上将会启用N个px workers进程，用于处理当前的跨机并行查询逻辑。px_workers 指定跨机并行查询是否对特定表生效。默认不生效。跨机并行查询功能比较消耗计算节点集群资源，因此只有对设置了px_...

WAL日志并行回放

上述状态机的状态转移过程中，黑色线标识的状态转移过程在Dispatcher进程中完成，橙色线标识的状态转移过程在并行回放进程组中完成。Dispatcher进程 Dispatcher进程有三个关键数据结构：Task HashMap、Task Running Queue以及Task Idle ...

并行（Parallel）

本文介绍了并行状态及其相关使用示例。基本概念 并行状态用来并行执行多个状态。它定义了多个分支（Branches），每个分支包含一系列状态。执行并行状态会并发执行所有分支包含的状态。当所有分支执行结束后，默认将输出一个包含所有分支...

功能简介

空间数据支持单文件、多文件、数据库等多种形态，矢量、栅格、瓦片、倾斜摄影等...支持查看数据处理任务详情，包括任务的基本信息、处理的数据、数据坐标位置、结果数据、参数设置和任务执行状态。支持查看数据处理任务的运行属性和运行日志。

只读节点Online Promote

LogIndex BGW进程有自己的状态机，在其生命周期内，一直按照该状态机运行，具体每个状态机的操作内容如下：参数说明 POLAR_BG_WAITING_RESET LogIndex BGW进程状态重置，通知其他进程状态机发生变化。POLAR_BG_ONLINE_PROMOTE 读取...

空间数据（邀测中）

空间数据支持单文件、多文件、数据库等多种形态，矢量、栅格、倾斜摄影等多种...支持查看数据处理任务详情，包括任务的基本信息、处理的数据、数据坐标位置、结果数据、参数设置和任务执行状态。支持查看数据处理任务的运行属性和运行日志。

应用场景

例如，来自不同数据源的计量数据被收集到日志服务，函数计算的定时器定时触发云工作流执行，云工作流利用函数计算对多个Shard的计量数据做并行处理，并将结果分别写回日志服务；然后可以将所有Shard产生的文件进行聚合，写入表格存储...

2021年

对分区表使用跨机并行查询优化基于RTO的crash recover时间改进支持配置polar_crash_recovery_rto参数，指定实例期望的RTO时间，从而保证在发生crash recovery时，数据库可以在期望的RTO时间内完成崩溃恢复重启，恢复可用状态。...

2021年

使用跨机并行查询加速索引创建 2021年6月优化基于RTO的crash recover时间改进支持配置polar_crash_recovery_rto参数，指定实例期望的RTO时间，从而保证在发生crash recovery时，数据库可以在期望的RTO时间内完成崩溃恢复重启，恢复可用...

添加访问地址

将只需要获取数据副本的读操作分散到多个从节点上，可实现并行处理和负载均衡，减少数据库的负载和响应时间，提高用户的体验和满意度。更多信息，请参见数据库代理。概念介绍主地址：其读写模式为可读可写，默认读主，提供强一致读写。...

对分区表使用跨机并行查询

通过对分区表使用跨机并行查询，提升数据库的性能。功能介绍当前对分区表使用跨机并行查询支持的功能如下所示：支持range分区的并行查询。支持list分区的并行查询。支持hash分区的并行查询。支持分区裁剪。支持带有索引的分区表并行查询。...

对分区表使用跨机并行查询

通过对分区表使用跨机并行查询，提升数据库的性能。功能介绍当前对分区表使用跨机并行查询支持的功能如下所示：支持range分区的并行查询。支持list分区的并行查询。支持hash分区的并行查询。支持分区裁剪。支持带有索引的分区表并行查询。...

LLM on DLC-Megatron on DLC最佳实践

常见的大模型训练技术包括：数据并行技术、模型并行技术（包括张量并行技术和流水并行技术）、优化器状态并行技术、序列并行技术、激活重算技术等：数据并行技术（Data Parallel）：在多个GPU组上有相同的模型参数副本，但读取不同的样本。...

Kafka实时ETL同步至Hologres

在数据输出预览窗口，您可以根据需要修改输入数据，或者单击手工构造数据按钮自定义输入数据，然后单击预览按钮，查看当前数据处理节点对数据的处理结果，当数据处理节点处理异常，或者产生脏数据时，也会实时反馈异常信息，能够帮助...

使用OSS外表高速导入OSS数据

云原生数据仓库AnalyticDB PostgreSQL版支持通过OSS外部表（gpossext功能），将数据并行从阿里云对象存储OSS导入到 AnalyticDB PostgreSQL。功能介绍目前gpossext支持读写TEXT、CSV格式的文件以及GZIP压缩格式的TEXT、CSV文件。gpossext...

PolarDB PostgreSQL版：ePQ架构详解

PolarDB PostgreSQL版实现了弹性跨机并行查询（ePQ）特性，能够帮助您解决原先的 PolarDB PostgreSQL版在处理复杂的AP查询时会遇到的问题。前提条件支持的 PolarDB PostgreSQL版的版本如下：PostgreSQL 11（内核小版本1.1.28及以上）...

使用OSS外表高速导出数据到OSS

云原生数据仓库AnalyticDB PostgreSQL版支持通过OSS外部表（即gpossext功能），将数据并行导出到阿里云对象存储OSS，并支持通过GZIP进行OSS外部表文件压缩，大量节省存储空间及成本。功能介绍目前gpossext支持读写TEXT、CSV格式的文件...

PolarDB HTAP实时数据分析技术解密

并行查询的加入使得PolarDB突破了单核执行性能的限制，利用多核CPU的并行处理能力，PolarDB部分SQL查询耗时成指数级下降。Why We Need Column-Store 并行执行框架突破了CPU扩展能力的限制，带来了显著的性能提升。然而受限于行式存储及行式...

基本介绍

通过并行循环（foreach）步骤来并行处理数组数据。流程包含以下属性：version（必需）：流程版本，仅支持 v1。type（必需）：flow表示是流程类型。steps（必需）：定义了流程的多个串行步骤。一个步骤执行完成后，如果成功，则会执行下一个...

深度解析PolarDB数据库并行查询技术

传统的优化器只能生成串行的执行计划，为了实现并行读取数据，同时并行处理数据，首先必须对现有的优化器进行改造，让优化器可以生成需要的并行计划。例如，选择哪个表或哪些表可以并行读取，并且通过并行读取会带来足够的收益；或者哪些...

企业版和标准版功能对比

支持支持弹性并行查询（ePQ）弹性并行查询（Elastic Parallel Query，ePQ）目前支持单机并行和多机并行两种并行引擎，单机并行引擎等效于原有的并行查询，多机并行引擎支持集群内跨节点的自适应弹性调度。支持支持 SQL引擎查询优化 ...

8.0.1和8.0.2版功能对比

支持支持热点行优化 PolarDB 在数据库内核层进行了创新性的优化，不但能够自动识别热点行更新请求，而且将一定时间间隔内对同一数据行的更新操作进行分组，不同分组采用流水线的方式并行处理，通过这些优化，极大地提升了系统的性能。...

术语

硬件压缩盘的压缩引擎集成在盘片内部，通过FPGA/ASIC提供的专用算力，在数据读写的过程中实时对数据进行压缩、解压缩处理。数据通过压缩后可以减少写入存储介质的数据量，从而节省更多的存储空间，更多的空闲空间可以有效降低SSD磁盘固有的...

概述

Flink全托管提供状态兼容性检查和状态数据迁移功能。本文为您介绍Flink全托管兼容性判断的结果详情...说明在Gemini和RocksDB对应完全相同的SQL和状态数据时，Gemini很快从INITIAIZING状态（加载状态数据）变为RUNNING状态，并开始处理数据。

列存索引技术架构介绍

并行查询突破了单核执行性能的限制，利用多核CPU的并行处理能力，使得部分SQL查询耗时成指数级下降。PolarDB列式存储并行执行框架突破了CPU扩展能力的限制，带来了显著的性能提升。然而，受限于行式存储及行式执行器的效率限制，单核执行...

PolarDB PostgreSQL版架构介绍

数据一致性传统数据库的内存状态同步传统share nothing的数据库，主节点和只读节点都有各自的内存和存储，只需要从主节点复制WAL日志到只读节点，并在只读节点上依次回放日志即可，这也是复制状态机的基本原理。基于Shared-Storage的内存...

使用多机MPP对海量数据分析提速

多机并行执行可以处理多种类型的AP负载，IMCI的优化器可以准确判断出适合查询语句的TP，并选择单机执行AP或多机并行执行AP，最终将查询语句调度到适合的列存节点上。适用场景通过多机并行的资源弹升能力扩展CPU和IOPS，降低查询时延。通过...

离线同步并发和限流之间的关系

在一些数据同步场景，脏数据的出现会导致任务同步效率下降，以关系数据库写出为例，默认是执行batch批量写出模式，在遇到脏数据时会退化为单条写出模式（以找出batch批次数据具体哪一条是脏数据，保障正常数据正常写出），但单条写出效率会...

技术原理

针对这类在线数据库上复杂SQL的处理，PolarDB-X 1.0 额外扩展了单机并行处理器（Symmetric Multi-Processingy，简称SMP）和多机并行处理器（DAG）。前者完全集成在 PolarDB-X 1.0 内核中；而对于后者，PolarDB-X 1.0 构建了一个计算集群，...

异构数据源访问

功能说明外部数据源管理提供高性能的结构化和非结构化数据并行传输服务。其中，异构数据源访问支持通过 AnalyticDB PostgreSQL版数据库以统一的SQL接口查询和分析存储在外部系统中的数据。提供以下功能：多种数据存储访问：支持多种数据...

通过脚本模式配置离线同步任务

当您需要实现更精细化的配置管理时，您可以使用脚本模式配置离线同步任务，通过编写数据同步的JSON脚本并结合DataWorks调度参数使用，将源端单表或分库分表的全量或增量数据周期性同步至目标数据表。本文为您介绍脚本模式配置离线同步任务...

状态机数据并行处理

新品推荐