大数据告诉你到底该不该生二胎-大数据告诉你到底该不该生二胎文档介绍内容-阿里云

PolarDB HTAP实时数据分析技术解密

背景信息 PolarDB MySQL版是因云而生的一个数据库系统。除云上OLTP场景外，大量客户也对PolarDB提出了实时数据分析的性能需求。对此，PolarDB技术团队提出了In-Memory Column Index（IMCI）的技术方案，此方案在复杂分析查询场景获得了数...

常见问题

支持的数据库部署位置（接入方式）阿里云实例有公网IP的自建数据库通过数据库网关DG接入的自建数据库通过云企业网CEN接入的自建数据库 ECS上的自建数据库通过专线/VPN网关/智能接入网关接入的自建数据库阿里云实例通过数据库网关DG接...

阶段一：基础防护建设

在该阶段，DataWorks为您提供了数据分类分级、规范数据开发流程、企业级身份认证、开源身份隔离等多个场景的最佳实践，帮助企业做好数据安全治理的相关基础防护工作。场景一：数据分级分类无论在任何行业，数据分级分类都是监管首要检查的...

列存索引技术架构介绍

在处理大数据量下复杂查询所需要的能力方面，如优化器处理子查询的能力、高性能算子HashJoin、SQL并行执行能力等，MySQL社区一直将其放在比较低优先级上，因此，MySQL的数据分析能力提升进展缓慢。随着MySQL发展为世界上最为流行的开源数据...

低成本历史库

在移动互联网高度发达的今天，每天都会有大量的业务数据产生，随着时间的积累和业务的发展数据量急剧增长，同时历史数据的访问频率随着时间的推移却越来越低。这些数据全部存储在关系型数据库中会带来了一系列的问题。重要 2023年3月10日后...

配置安全规则

将数据库添加到数据库审计系统后，您可以为数据库配置安全规则（即审计规则），当数据库的审计记录命中审计规则时，数据库审计系统会触发告警。本文介绍如何配置审计规则。背景信息审计规则支持内置规则和自定义规则。内置规则即数据库...

权限说明

数据湖构建（DLF）产品的权限体系主要分为RAM权限以及DLF数据权限控制两大类，如果您要访问DLF的页面或数据，一般都需要通过这两层权限校验，才可以正确的访问到数据资源。RAM 权限：主要控制DLF所有OpenAPI的访问权限，决定RAM用户是否...

全增量实时同步至Hologres

全增量实时同步方案为您先进行全量数据迁移，然后再实时同步增量数据至目标端。本文为您介绍如何创建全增量实时同步至Hologres任务。前提条件已完成数据源配置。您需要在数据集成同步任务配置前，配置好您需要同步的源端和目标端数据库，...

离线同步常见问题

数据同步原则：来源端数据源的数据要能写入目的端数据源（来源端和目的端类型需要匹配，字段定义的大小需要匹配），即源端数据类型需要与写端数据类型匹配，源端是VARCHAR类型的数据不可写到INT类型的目标列中；目标端的数据类型定义的大小...

产品架构

高效满足IoT/监控等场景的测量数据、设备运行数据的存储处理需求，整体架构如下：TSCore 是时序引擎中负责数据组织的核心部分，其整体思想与LSM结构相似，数据先写入Memchunk，然后Flush到磁盘，但由于时序数据天然的顺序写入特征，定向...

DataStudio侧实时同步任务配置

完成数据源、网络、资源的准备配置后，您可创建实时同步节点，将多种输入及输出数据源搭配组成同步链路，进行单表或整库数据的实时增量同步。本文为您介绍如何创建单表或整库增量数据实时同步任务，并在创建完成后查看任务运行情况。前提...

通过向导模式配置离线同步任务

数据集成提供向导式的开发引导，您无需编写任何代码，通过在界面勾选数据来源与去向，并结合DataWorks调度参数，实现将源端单表或分库分表的全量或增量数据周期性同步至目标数据表。本文为您介绍向导模式配置离线同步任务的常规配置，各...

通过脚本模式配置离线同步任务

当您需要实现更精细化的配置管理时，您可以使用脚本模式配置离线同步任务，通过编写数据同步的JSON脚本并结合DataWorks调度参数使用，将源端单表或分库分表的全量或增量数据周期性同步至目标数据表。本文为您介绍脚本模式配置离线同步任务...

EMR Hive数据整库离线同步至MaxCompute

背景信息 Hive是基于Hadoop的一个数据仓库工具，用来进行数据的提取、转化、加载，可以存储、查询和分析存储在Hadoop中的大规模数据。Hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成...

漏斗图

当选中数据项变化时当漏斗图的梯形块数据发生变化时抛出事件，同时抛出该梯形块对应的数据项。当点击图例时当单击漏斗图的图例时抛出事件，同时抛出该图例对应的数据项。动作动作说明导入漏斗图接口按组件绘制格式处理数据后，导入...

高效数据治理实施指南

DataWorks数据治理中心可协助数据治理团队建立数据治理框架、优化治理过程、提升治理效率，从而实现治理目标的高效突破。本文通过治理负责人的实操过程，为您介绍如何通过数据治理计划能力，高效设定和达成数据治理目标。背景信息在多人...

仪表盘

仪表盘是数据管理DMS 数据分析的其中一种可视化应用类型，其提供自动布局和可交互能力，您可以通过使用仪表盘来进行数据分析和制作可视化报表。本文介绍仪表盘的基本概念、功能展示及操作步骤。基本概念仪表盘集合：仪表盘集合是用户管理...

如何支持超大事务

场景二在该场景下，执行SQL语句数量较少，每条语句携带数据量较小，事务修改数据量较大。执行SQL语句数量 1 每条语句携带的数据量约256 KB 数据修改总量 256 MB～8 GB 数据修改条数 2^20～2^25 测试过程在本测试中，数据表中 c 列的数据...

客户案例

DataWorks在多个行业中均有典型的案例落地，帮助多个行业的企业解决数据痛点，挖掘数据价值，本文为您介绍典型行业中已落地的客户案例。新零售行业：大润发云上数据中台建设客户架构如下。客户简介为了快速数字化转型，拥抱新零售，...

创建Hologres数据源

进行数据同步：DataWorks的数据集成模块为您提供读取和写入数据至Hologres的能力，您可将其他数据源的数据同步至当前Hologres数据源，或将当前Hologres数据源的数据同步至其他数据源。同时，可根据需要选择离线同步、实时同步、同步解决...

二级分区表（2.0版）

参数绝大多数参数和创建普通表语法中介绍一样，详情请参见 CREATE TABLE，二级分区表多了两个参数：subpart_col：二级分区列，该列不在定义的列中需要重新定义，类型必须为long。available_partition_num：二级分区数，即为最大保留的二级...

查询报错问题

errorCode=65541,errorName=NO_NODES_AVAILABLE,errorType=INTERNAL_ERROR,errorLocation=null,failureInfo=mpp.client.FailureInfo@13887b2e} 一般是数据库内部某个计算节点压力较大导致该节点暂时离线，系统能够自动修复。请用户过5~10...

数据集成调度策略说明

DTS的数据集成功能可根据调度策略的配置，定期地将源库中的结构和存量数据迁移至目标库中。通过该功能可以帮助您构建更加灵活的数据仓库（例如构建T+1的周期性数仓），本文介绍数据集成的策略、限制及适用场景。支持的数据库支持全量数据...

MaxCompute数据源

MaxCompute数据源作为数据中枢，为您提供读取和写入数据至MaxCompute的双向通道。使用限制说明 DataWorks的MaxCompute数据源可使用 Tunnel Endpoint 地址访问相应MaxCompute项目的Tunnel服务，从而通过上传、下载等方式同步该项目的数据。...

接入数据库

在使用数据安全中心DSC（Data Security Center）检测云产品（包括OSS、RDS、PolarDB等）中存在的敏感数据或审计数据库活动前，您需要先将数据库接入DSC。本文介绍如何将数据库接入DSC。背景信息 DSC 支持的数据库类型详情，请参见支持的...

管理数据分级

数据分级用于定义数据在安全领域的安全等级。新建数据分级在Dataphin首页，单击顶部菜单栏资产。按照下图指引，进入新建数据分级对话框。在新建数据分级对话框，配置...说明如果数据分级已被识别规则引用，则该数据分级不支持删除。

管理数据分级

数据分级用于定义数据在安全领域的安全等级。新建数据分级在Dataphin首页，单击顶部菜单栏资产。按照下图指引，进入新建数据分级对话框。在新建数据分级对话框，配置...说明如果数据分级已被识别规则引用，则该数据分级不支持删除。

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

一键美化

通过一键美化功能，您可以快速调整数据看板的布局，并通过内置样式丰富数据看板的内容，快速解决在设计数据看板时遇到的整体样式配置困难的问题。本文介绍DataV一键美化功能的使用方法。使用流程登录 DataV控制台。在工作台页面，使用...

索引加速

本文主要介绍云数据库 SelectDB 版中内建的智能索引以及使用时的注意事项。背景信息索引用于快速过滤或查找数据。目前云数据库 SelectDB 版主要支持两类索引：内建的智能索引，包括ZoneMap索引和前缀索引。创建的二级索引，包括倒排...

产品和业务限制

限制项描述例外申请方式购买分析型数据库MySQL版的限制账户余额大于等于500元现金请联系技术支持开通分析型数据库MySQL版的用户限制用户需实名认证无可创建的最大分析型数据库MySQL版数 3个联系技术支持申请更多单个分析型数据...

问题汇总

补数据补数据功能说明为什么小时分钟任务补数据选择了并行但实际不生效？为什么补数据选择业务时间后不运行，实例显示黄色，实例状态显示等待时间？为什么补数据报错调起的节点运行时间不在所选业务时间范围内？为什么有节点选择了补数据...

概述

数据备份物理空间大小如下图所示：说明 PolarDB 集群数据备份物理空间大小（上图中①所示）：指数据备份的收费对象，物理空间大小是指所有数据备份（快照）独占的物理空间大小之和，PolarDB集群的数据与多个数据备份（快照）会复用相同的...

DataWorks产品安全能力介绍

为充分契合数据安全治理的核心理念与通用思路，DataWorks针对资产梳理、技术体系/运营体系建设提供了一系列全面的数据安全产品能力，基于“I（Identify）P（Protect）D（Detect）R（Respond）”理论框架，从资产识别、安全防护、行为检测、...

基本数据库对象及概念

假设表A一级分区数为64，二级分区数为90，那么该表最优数据量区间为 64*90*[300万,2000万]，即[172.8亿,1152亿]，因此二级分区极大地增大了单表的纪录上限。如果在实际使用中二级分区数过多，建议增大二级分区键的分区粒度，比如将按日分区...

简介

数据工作站可以结合大语言模型给业务开发、数据开发、分析师和数据运营同学赋能，提升数据交付效率和数据自助分析的效率。当您需要将查询的数据、测试的数据、以及数据变化趋势等信息，以文档的形式进行交付，并在交付后，希望有可以替您...

创建数据脱敏规则

DataWorks支持多种脱敏场景，您需根据需要选择合适场景创建相应数据脱敏规则。本文为您介绍如何创建脱敏规则，并在DataWorks中进行脱敏查询。背景信息 DataWorks的脱敏场景分为静态脱敏和动态脱敏：动态脱敏：包括数据开发/数据地图展示...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库，支持的数据类型具有多样性，包括结构化、半结构化以及非结构化的数据，数据来源上包含数据库数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

分区表常见问题

LIST DEFAULT HASH分区适用于长尾业务场景，数据量分布不均衡，数据分布类似二八法则。如：大租户的数据量多，但大租户少；中小租户多但数据量少；或者随时会新增小租户，无法在建表时全部枚举出来。在这种场景下，您可以在一张分区表中...

大数据告诉你 到底该不该生二胎

新品推荐

大数据告诉你到底该不该生二胎