应用场景

访问频度极高业务 如社交网络、电子商务、游戏、广告等。...实现对大数据的分布式分析处理,适用于商业分析、挖掘等大数据处理场景。通过数据集成服务可自助实现数据在云数据库 Memcache 版与 MaxCompute 间的同步,简化数据操作流程。

DataWorks on EMR数据安全方案

大数据领域,阿里云为企业用户提供了一整套数据安全方案,包含用户认证、数据权限、大数据作业管理体系等。本文以联合使用DataWorks与EMR为例,为您介绍DataWorks on EMR场景下的数据安全方案。背景信息 DataWorks on EMR目前支持LDAP...

DML无锁变更概览

DML无锁数据变更可以将单个SQL拆分成多个批次执行,能更好地满足业务方大量数据变更的需求,例如历史数据清理、全表更新字段等,保证执行效率,减小对数据库性能、数据库空间等的影响。背景信息 当业务累积了大量数据时,需要定期清除表...

数据集成概述

背景信息 面对各行各业对大数据的应用,数据集成会有很多的诉求,包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优(例如容错,限速,并发)等。...

数据集成概述

背景信息 面对各行各业对大数据的应用,数据集成会有很多的诉求,包括能够简单高效的配置大量数据表的同步任务、能够集成多种异构数据源、能够实现对数据源的数据进行轻度预处理、能够实现数据同步任务的调优(例如容错,限速,并发)等。...

JindoFS介绍和使用

JindoFS提供兼容对象存储的纯客户端模式(SDK)和缓存模式(Cache),以支持与优化Hadoop和Spark生态大数据计算OSS的访问;提供块存储模式(Block),以充分利用OSS的海量存储能力和优化文件系统元数据的操作。JindoFS纯客户端模式(SDK...

概述

您可以将数据库中的表或单条SQL查询结果作为数据集,在仪表盘或大屏中对数据集中的数据以表格、交叉表、折线图、柱条形图、饼图、双轴图等图形或组件展现出来,并这些图形或组件进行自由组合、布局,以某种分析思路业务进行直观呈现。...

数据质量概述

功能介绍 数据质量支持常见大数据存储(MaxCompute、E-MapReduce Hive、Hologres等)进行质量校验。从完整性、准确性、有效性、一致性、唯一性和及时性等多个维度,配置质量监控规则。并可以将质量监控规则与调度节点进行关联,当任务...

功能特性

配置管理 数据保护 敏感数据管理 DMS的敏感数据保护能力能根据所选的敏感数据扫描模板、敏感数据识别模型以及脱敏算法对数据进行脱敏处理,以避免敏感数据滥用,有效保护企业的敏感数据资产,防止数据泄露造成企业经营资金损失或罚款。...

《互联网视听节目服务管理规定》(国家广播电影电视...

同时,可其主要出资者和经营者予以警告,可并处 2 万元以下罚款:(一)擅自在互联网上使用广播电视专有名称开展业务的;(二)变更注册资本、股东、股权结构,或上市融资,或重大资产变动时,未办理审批手续的;(三)未建立健全节目...

数据治理中心概述

量化评估:健康分 健康分是依据数据资产在数据生产、数据流通及数据管理中的用户行为、数据特性、任务性质等元数据,使用数据处理及机器学习等技术,各类型数据进行综合处理和评估,通过个人、工作空间维度客观呈现数据资产状态的综合...

ActionTrail日志清洗

DLA提供ActionTrail日志自动清洗解决方案,可以将ActionTrail投递到OSS的日志文件转换为DLA中可以直接查询的数据表,同时自动对数据进行分区和压缩,方便您分析和审计云产品的操作日志。日志分析痛点 ActionTrail是阿里云提供的云账号...

LTS(原BDS)服务介绍

在线离线业务分离 通过LTS,将在线业务数据实时同步到HDFS或者OSS等存储,结合Spark、MR等大数据组件进行数据分析,从而不影响在线业务的查询。主备容灾 通过LTS在主备集群之间实现实时数据的双向同步,当主集群出现问题,可以切换到备集群...

LTS(原BDS)服务介绍

在线离线业务分离 通过LTS,将在线业务数据实时同步到HDFS或者OSS等存储,结合Spark、MR等大数据组件进行数据分析,从而不影响在线业务的查询。主备容灾 通过LTS在主备集群之间实现实时数据的双向同步,当主集群出现问题,可以切换到备集群...

文档修订记录

Check节点 2024.1.12 新增功能 最佳实践 新增DataWorks大数据安全治理实践新增指南,为您介绍数据安全治理的常见思路、DataWorks产品的安全能力,以及在DataWorks上基于“基础防护建设”、“数据安全防护措施”、“数据安全持续运营”三个...

表设计规范

当部分数据的生命周期与其它数据不同时,您可以通过细粒度分区实现部分数据的管理。分区字段定义依据 按优先级高低排序如下:分区列的选择应充分考虑时间因素,尽量避免更新存量分区。如果有多个事实表(不包括维度表)进行JOIN,应将...

产品简介

大数据专家服务 大数据专家服务(Bigdata Expert Service)是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障,帮助用户...

Stage级别诊断结果

数据量被广播 Stage输入数据倾斜 Stage输出数据倾斜 较数据量被广播 问题 广播(Broadcast)是在两个相邻的Stage间,上游向下游Stage传输数据时所用的一种方法(更多详情,请参见 数据输出类型)。如果某个Stage广播了较多数据,...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线,您可以实时接入APP、WEB、IoT和数据库等产生的异构数据,统一管理,并投递到下游的分析、归档等系统,构建清晰的数据流,让您更好的释放数据的价值。...

什么是DataWorks

DataWorks基于MaxCompute、Hologres、EMR、AnalyticDB、CDP等大数据引擎,为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。从2009年起,DataWorks不断沉淀阿里巴巴大数据建设方法论,支撑数据中台建设,同时与...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks,完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中,DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

离线同步并发和限流之间的关系

同步速率:数据同步速率和任务期望最大并发数是比较强相关的参数,两者结合在一起可以保护数据来源和数据去向端的读写压力,以避免数据同步任务对数据源带来较压力,影响数据源的稳定性。同步速率(不限流)是指按照用户配置的任务期望...

DMS支持的数据库

关系型数据库 MySQL SQL Server PostgreSQL MariaDB OceanBase MySQL模式 OceanBase Oracle模式 OceanBase ODP Oracle DB2 达梦数据库 OpenGauss 数据仓库 ClickHouse SelectDB NoSQL数据库 Redis MongoDB 大数据 Hive 录入他云/自建数据库...

简介

系统兼容开源GeoMesa、GeoServer等生态,内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等,结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力,广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

相关的云服务

DataWorks作为阿里云一站式大数据开发与治理平台,通常会与计算引擎产品联合使用,此外使用DataWorks进行数据集成时通常联合进行数据传输的数据源产品一起使用。本文为您介绍典型场景下,使用DataWorks时通常会使用到的其他云产品。计算...

PolarDB PostgreSQL版(兼容Oracle)间的迁移

通过数据传输服务DTS(Data Transmission Service),可以实现 PolarDB PostgreSQL版(兼容Oracle)集群间的迁移。背景信息 PolarDB PostgreSQL版(兼容Oracle)作为一款企业级关系型数据库管理系统,具有广泛的应用和强大的社区支持。每个...

账单数据订阅及查询分析

DataWorks及MaxCompute:DataWorks基于MaxCompute等大数据引擎,支持您在线进行SQL分析、业务洞察、编辑和分享数据,以及将查询结果保存为可视化图表卡片,快速搭建可视化数据报告。订阅账单数据后,用户中心会将相关账单数据同步至指定...

数据标准

数据是由特定的环境产生的,这些环境因素包括生产者、时间、系统等,从而造成了同一个语义的数据,有...说明 目前使用DDM进行数据建模可以进行逻辑建模和物理建模,但物理建模仅支持MaxCompute和Hive两种大数据引擎,不支持自定义数据源类型。

离线同步任务调优

数据库性能限制的情况下,同步速度并非越快越好,考虑到速度过高可能对数据库造成过的压力从而影响生产,数据集成支持了限速选项,您可根据业务合理配置该值。详情请参见:限制同步速度。数据同步速度的影响因素 数据同步速度受来源与...

全增量实时同步至Hologres

限流:考虑到速度过高可能对数据库造成过的压力从而影响生产,数据集成同时提供了限速选项,您可以通过限流控制同步速率,从而保护读取端数据库,避免抽取速度过,给数据库造成太的压力。限速最小配置为1MB/S,最高上限为30MB/s。离...

PolarDB PostgreSQL版间的迁移

是否限制全量迁移速率 全量迁移时会开启源库的多并发读取及目标库的多并发写入,这一行为可能用户的数据库造成一定的压力,如果不希望对数据库影响太,可以限制迁移的速率上限。是否限制增量同步速率 增量迁移时会开启源库的多...

大数据AI公共数据集分析

本教程通过DataWorks,联合云原生大数据计算服务MaxCompute,使用大数据AI公共数据集(淘宝、飞猪、阿里音乐、Github、TPC等公共数据),指导您如何快速进行大数据分析,快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

数据集成支持的数据

离线集成支持的数据数据源 读取 写入 大数据存储型数据源 MaxCompute 支持 支持 Hologres 支持 支持 IMPALA 支持 支持 TDH Inceptor 支持 支持 StarRocks 支持 支持 Hudi 支持 支持 Doris 支持 支持 GreenPlum 支持 支持 TDengine 不...

核心能力

数据资源平台提供了一站式数据资产定义、生产、管理与服务平台,提供企业级数据资产构建能力和一致性使用体验,助力客户快速构建数据智能平台,实现数据资源统一管理,挖掘潜在规律,优化业务决策,让大数据真正的驱动客户业务。...

数据集成支持的数据

离线集成支持的数据数据源 读取 写入 大数据存储型数据源 MaxCompute 支持 支持 Hive 支持 支持 Hologres 支持 支持 IMPALA 支持 支持 TDH Inceptor 支持 支持 Kudu 支持 支持 StarRocks 支持 支持 Hudi 支持 支持 Doris 支持 支持 ...

概述

数据内容安全管理 安全中心提供的数据分级分类、敏感数据识别、数据访问审计、数据源可追溯等功能,在处理业务流程的过程中,能够快速及时识别存在安全隐患的数据,保障了数据内容的安全可靠,详情请参见 数据保护伞。安全诊断的最佳实践 ...

MaxFrame概述

您可以用更熟悉、高效、便捷的方式利用MaxCompute的海量计算资源及数据进行规模数据处理、可视化数据探索分析以及科学计算、ML/AI开发等工作。本文为您介绍MaxFrame背景信息、功能介绍及使用场景。版本说明 当前MaxCompute MaxFrame功能...

基于Delta lake的一站式数据湖构建与分析实战

数据湖作为一个集中化的数据存储仓库,支持的数据类型具有多样性,包括结构化、半结构化以及非结构化的数据数据来源上包含数据数据、binglog 增量数据、日志数据以及已有数仓上的存量数据等。数据湖能够将这些不同来源、不同格式的数据...

冷热分层

背景信息 在海量大数据场景下,随着业务和数据量的不断增长,性能和成本的权衡成为大数据系统设计面临的关键挑战。Delta Lake是新型数据湖方案,推出了数据流入、数据组织管理、数据查询和数据流出等特性,同时提供了数据的ACID和CRUD操作...

支持的数据

类别 数据源 导入方式 文档链接 消息队列 Kafka 数据同步 通过数据同步功能同步Kafka至湖仓版(推荐)日志类数据 日志服务(SLS)数据同步 通过数据同步功能同步SLS至湖仓版(推荐)大数据 Hive 数据迁移 Hive数据导入 相关文档 AnalyticDB...
共有200条 < 1 2 3 4 ... 200 >
跳转至: GO
产品推荐
云服务器 安全管家服务 安全中心
这些文档可能帮助您
数据传输服务 数据库备份 DBS 云数据库 RDS 云数据库 Redis 版 弹性公网IP 短信服务
新人特惠 爆款特惠 最新活动 免费试用