大数据是指的-大数据是指的文档介绍内容-阿里云

ListDoctorHiveTables-批量获取Hive表分析结果

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。coldDataSize:冷数据的数据量大小。冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。freezeDataSize:极冷数据数的据量大小。极冷数据指的是 90 日以内...

ListDoctorHDFSDirectories-批量获取HDFS目录分析结果

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。coldDataSize:冷数据的数据量大小。冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。freezeDataSize:极冷数据的数据量大小。极冷数据指的是 90 日以内...

GetDoctorHDFSCluster-获取HDFS分析结果

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。Name string 指标名称。warmDataSize Value long 指标值。4062349775577 Unit string 指标单位。MB Description string 指标描述。Size of the warm data size ...

GetDoctorHiveTable-获取Hive表分析结果

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。Name string 指标名称。warmDataSize Value long 指标值。14981 Unit string 指标单位。MB Description string 指标描述。Size of the warm data size ColdDataSize ...

GetDoctorHiveDatabase-获取Hive库信息

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。Name string 指标名称。warmDataSize Value long 指标值。1000 Unit string 指标单位。MB Description string 指标描述。Ratio of warm files ColdDataSize object 冷数据...

GetDoctorHDFSDirectory-获取HDFS特定目录分析结果

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。Name string 指标名称。warmDataSize Value long 指标值。4062349775577 Unit string 指标单位。MB Description string 指标描述。Size of the warm data size ...

GetDoctorHiveCluster-获取 Hive 集群信息

冷数据指的是 30 日内没有访问的数据，但是 90 日以内有访问的数据。Name string 指标名称。coldDataSize Value long 指标值。1000 Unit string 指标单位。MB Description string 指标描述。Ratio of cold files FreezeDataSize object 极...

ListDoctorHiveDatabases-批量获取 Hive 库信息

温数据指的是 7 日内没有访问的数据，但是 30 日以内有访问的数据。Name string 指标名称。warmDataSize Value long 指标值。1000 Unit string 指标单位。MB Description string 指标描述。Ratio of warm files ColdDataSize object 冷数据...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

数据质量教程概述

在整体数据链路的处理过程中，为保证最终产出数据的质量，您需要对数据仓库ODS、CDM和ADS层的数据分别进行监控。数据仓库分层的定义请参见数仓分层。本教程基于搭建互联网在线运行分析平台教程，ods_user_trace_log、dw_user_trace_log...

数据质量教程概述

在整体数据链路的处理过程中，为保证最终产出数据的质量，您需要对数据仓库ODS、CDM和ADS层的数据分别进行监控。数据仓库分层的定义请参见数仓分层。本教程基于搭建互联网在线运行分析平台教程，ods_user_trace_log、dw_user_trace_log...

技术原理

分析型查询指的是涉及数据量较大、计算比较复杂的查询，例如对一定时间区间内的数据进行聚合。相比于业务中常见的简单查询，这类查询往往要执行数秒甚至数分钟，需要消耗较多的计算资源。为了加速复杂分析型查询，PolarDB-X将计算任务切分...

功能简介

质量评估即根据用户设置的数据质量规则执行面向不同计算资源的质量检查任务，包括运行质量检查计划和场景画布两种途径；通过数据质量监控报告，查看系统整体数据质量概览及多维度细分数据的质量情况。质量评估通过完整性、准确性、一致性、...

功能简介

质量评估即根据用户设置的数据质量规则执行面向不同计算资源的质量检查任务，包括运行质量检查计划和场景画布两种途径；通过数据质量监控报告，查看系统整体数据质量概览及多维度细分数据的质量情况。质量评估通过完整性、准确性、一致性、...

质量评估

质量评估通过用户自定义质量检查计划，根据用户设置的数据质量规则执行面向不同计算资源的质量检查任务，通过数据质量监控报告展现系统整体数据质量概览及多维度细分数据的质量情况。质量评估通过完整性、准确性、一致性、唯一性、时效性、...

概述

地域和可用区地域是指物理的数据中心。可用区是指在同一地域内，拥有独立电力和网络的物理区域。更多信息请参见阿里云全球基础设施。控制台阿里云提供了简单易用的Web控制台，方便您操作阿里云的各种产品和服务，包括云数据库 PolarDB。...

概述

地域和可用区地域是指物理的数据中心。可用区是指在同一地域内，拥有独立电力和网络的物理区域。更多信息请参见阿里云全球基础设施。控制台阿里云提供了简单易用的Web控制台，方便您操作阿里云的各种产品和服务，包括云数据库 PolarDB。...

数据校验计费方式

本文介绍DTS数据校验任务的计费方式和计费标准。计费方式全量数据校验任务当前仅支持按量付费（后付费）的计费方式。说明按表行数进行校验的校验模式不收费，按抽样比例进行HASH校验的校验...校验的数据量是指源库中待校验数据的大小。

数据节点管理

Locality，指的是将数据库中的对象（如数据库、表或分区等）通过Locality属性关联到不同的资源池。对于每个DN节点，由于数据分布的不同，实际对资源的需求也有区别。PolarDB-X 支持针对每个DN节点单独升降配，提升整体的资源利用率。注意...

备份大小

图中的归档备份是指已保留超过2年（730天）的数据备份，数据是指非归档的数据备份。备份大小说明与存储空间使用量的关系数据备份和日志备份存放在备份空间，都不占用存储空间。日志分为本地日志和日志备份。日志说明费用作用本地...

RDS SQL Server空间不足问题

整理索引碎片索引碎片率较高会导致实际占用的数据存储空间过大，因此对索引执行碎片整理可以降低数据空间大小。您可以在控制台的自治服务>性能优化页面，单击索引使用率页签，可以查看各表的索引碎片率统计结果，并且自治服务会提供...

监控

AnalyticDB for MySQL 集群中包含多个存储节点，磁盘数据使用量是指单个读写节点的最大磁盘使用量，热数据使用量是指所有读写节点的磁盘数据使用量之和。预留模式跨规格变配为弹性模式后，监控界面看到 CPU平均使用率增大，是什么原因？...

管理健康报告

Tablet数据大小变异系数是指同一个分区内的tablet数据大小变异系数，代表了一个表的数据的tablet分布均衡程度。计算方式为：同一个分区内tablet数据大小的标准差除以平均值。一般来说，变异系数越大，这个分区越有可能存在数据倾斜的情况...

概述

数据备份物理空间大小如下图所示：说明 PolarDB 集群数据备份物理空间大小（上图中①所示）：指数据备份的收费对象，物理空间大小是指所有数据备份（快照）独占的物理空间大小之和，PolarDB集群的数据与多个数据备份（快照）会复用相同的...

概述

数据备份物理空间大小如下图所示：说明 PolarDB 集群数据备份物理空间大小（上图中①所示）：指数据备份的收费对象，物理空间大小是指所有数据备份（快照）独占的物理空间大小之和，PolarDB集群的数据与多个数据备份（快照）会复用相同的...

公共参数

公共请求参数是指每个接口都需要使用到的请求参数。公共请求参数以下公共请求参数适用于通过URL发送GET请求调用EMR API。名称类型是否必须描述 Action String 是 API的名称。取值请参见 API概览。Version String 是 API版本号，格式为...

创建Hudi数据源

本文为您介绍如何创建Hudi数据源。背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并...同步到Hive的数据库名称：填写同步到Hive的数据库名称。单击确定，完成Hudi数据源的创建。

创建Hudi数据源

同步到Hive的数据库名称：填写同步到Hive的数据库名称。单击确定，完成Hudi数据源的创建。重要创建Hudi数据源时不支持测试数据源是否可以和Dataphin进行正常的连通，因此需要您确保连接信息的正确性。您可根据网络连通解决方案自行排查...

JindoFS实战演示

视频发布时间描述 Fluid+JindoFS对OSS上的数据进行训练加速 Fluid+JindoFS对OSS上的数据进行训练加速 2021-07-06 Fluid是一个开源的Kubernetes原生的分布式数据集编排和加速引擎，主要服务于云原生场景下的数据密集型应用，例如大数据应用...

概述

向量数据库简介在现实世界中，绝大多数的数据都是以非结构化数据的形式存在的，如图片，音频，视频，文本等。这些非结构化数据随着智慧城市、短视频、商品个性化推荐、视觉商品搜索等应用的出现而爆发式增长。为了能够处理这些非结构化...

概述

数据同步：数据同步属于持续性动作，项目创建后会一直同步数据，保持源端和目标端的数据一致性，实现关键业务的数据实时流动。您可以通过数据同步功能，实现数据源之间的数据实时同步，适用于数据异地多活、数据异地灾备、数据聚合和实时...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

基本概念

同步初始化同步初始化是指在开始执行增量数据同步前，DTS先开始收集增量数据，然后将待同步对象的结构和存量数据同步到目标库。同步初始化包括增量数据采集、结构初始化和全量数据初始化。增量数据采集：采集源库中待同步对象所有变更的...

受众与核心能力

数据地图（公共云）/数据管理（专有云）：提供强大的数据搜索、数据类目、数据血缘等能力。数据资产管理（仅专有云）：统一管理整个平台的数据表、API等各类数据资产。数据安全：数据脱敏、权限控制等能力。应用开发（仅公共云）：基于Web...

管理缓存

持久化数据是指将Alluxio存储中可能被修改过或未被修改过的数据写回UFS。通过将数据写回到UFS，可以保证如果Alluxio发生故障数据还是可恢复的。语法 alluxio fs persist示例：将Alluxio中 tmp 目录持久化到底层文件系统中。alluxio fs ...

典型场景

构建数据湖实时数据湖：支持DB的CDC与消息数据（如Kafka）入湖，构建大规模的可以增删改查的数据集，延迟为T+10分钟。一键建仓：支持数据库一键入湖，T+1天。文件上传：数据上传后，DLA元数据发现功能可自动发现并构建好元数据体系。数据...

核心能力

遵循数据标准的数据建模，实现数据质量闭环控制可视化、符合标准的数据建模可视化ER模型、维度模型设计，自动生成物理表DDL。数据标准贯彻到模型、质量、保障及检查的全过程。自定义表属性、自定义数据元属性等元模型设计。全面、准确的...

应用场景

数据审计智能解析数据库及大数据的通信流量，细粒度审计数据访问行为，通过对数据源全量行为的审计溯源、危险攻击的实时告警、风险语句的智能预警，为您最敏感的数据库资产做好最安全的监控保障。个人信息合规可精准区分和保护个人数据，...

大数据安全治理的难点

通常，大数据系统中的工作流涉及多部门、多责任人且跨系统的数据，如何才能协调好这些业务系统准时、保质保量地产出数据，避免出现因业务系统宕机/脏数据导致数据延时产出、产出脏数据，关乎到企业数据业务的连续性问题甚至高层的信任问题...

应用场景

MongoDB提供二级索引功能满足动态查询的需求，利用MongoDB的map-reduce聚合框架进行多维度的数据分析。其他各领域应用游戏应用：使用云数据库MongoDB作为游戏服务器的数据库存储用户信息。用户的游戏装备、积分等直接以内嵌文档的形式存储...

大数据是指的

新品推荐