论大数据是一把双刃剑-论大数据是一把双刃剑文档介绍内容-阿里云

创建GreenPlum数据源

背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、...

创建GreenPlum数据源

背景信息 Greenplum是一款大数据分析引擎，作用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析型数据仓库以及商业智能工作负载而设计。更多详情，请参见 GreenPlum官网。使用限制 Dataphin仅支持超级管理员、数据源管理员、...

将云消息队列 Kafka 版的数据迁移至MaxCompute

背景信息 大数据计算服务MaxCompute（原ODPS）是一种大数据计算服务，能提供快速、完全托管免运维的EB级云数据仓库解决方案。DataWorks基于MaxCompute计算和存储，提供工作流可视化开发、调度运维托管的一站式海量数据离线加工分析平台。在...

创建Teradata数据源

背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出Dataphin数据至Teradata，您需要先完成Teradata数据源的创建。更多Teradata信息，请参见 Teradata官网。权限说明 Dataphin仅支持超级...

创建Teradata数据源

背景信息 Teradata是一款大型数据仓库系统。如果您使用的是Teradata，在对接Dataphin进行数据开发或导出Dataphin数据至Teradata，您需要先完成Teradata数据源的创建。更多Teradata信息，请参见 Teradata官网。权限说明 Dataphin仅支持超级...

从Oracle迁移应用至阿里云PolarDB全流程指南

数据库和应用迁移ADAM：Advanced Database&Application Migration（以下简称ADAM）是一款把数据库和应用迁移到阿里云（公共云或专有云）的产品，显著地降低了上云的技术难度和成本，尤其是Oracle数据库应用。ADAM全面评估上云可行性、成本...

X-Engine简介

因为目标是面向大规模的海量数据存储，提供高并发事务处理能力和降低存储成本，在大部分大数据量场景下，数据被访问的机会是不均等的，访问频繁的热数据实际上占比很少，X-Engine根据数据访问频度的不同将数据划分为多个层次，针对每个层次...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

JindoFS实战演示

使用Checksum迁移HDFS数据到OSS 使用Checksum迁移HDFS数据到OSS 2021-05-11 通过Checksum算法，你可以在大数据迁移场景中校验数据的完整性、对比数据差异并实现增量迁移。本视频为您介绍如何使用Jindo Distcp迁移HDFS数据到OSS，以及在迁移...

MaxCompute数据源

MaxCompute数据源作为数据中枢，为您提供读取和写入数据至MaxCompute的双向通道。使用限制说明 DataWorks的MaxCompute数据源可使用 Tunnel Endpoint 地址访问相应MaxCompute项目的Tunnel服务，从而通过上传、下载等方式同步该项目的数据。...

DataWorks On CDP/CDH使用说明

二、数据建模与开发模块说明相关文档数据建模数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行诠释，让企业内部实现“数同文”的...

DataWorks On Hologres使用说明

二、数据建模与开发模块描述相关文档数据建模数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行诠释，让企业内部实现“数同文”的...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

概述

随着业务的快速发展，企业数据呈几何倍增长，数据量庞大、复杂、各类数据间标准不一致，往往会出现数据难以管理的现象。DataWorks智能数据建模服务，将无序、杂乱、繁琐、庞大且难以管理的数据，进行结构化有序的管理。使企业中的数据产生...

客户案例

阿里妈妈公司介绍阿里妈妈广告业务主要是一种 P4P（Pay for Performance）形式的广告业务系统，而报表中心作为阿里妈妈向广告主透出广告效果数据的唯一平台，在阿里巴巴大平台丰富多样的商业场景下，为客户提供优质，高效，可靠的数据...

API概览

本产品（数据库文件存储/2020-04-18）的OpenAPI采用 RPC 签名风格，签名细节参见签名机制说明。我们已经为开发者封装了常见编程语言的SDK，开发者可通过下载SDK 直接调用本产品OpenAPI而无需关心技术细节。如果现有SDK不能满足使用需求，...

数据可视化概览

背景信息 DMS为您提供了数据库数据管理的能力，同时通过SQL Console控制台为您提供以表格形式查询数据的方式，但对于需要通过分析数据去发现业务特性，比如分析趋势、增长对比等场景，单纯的表格无法满足需求，需要把数据可视化才可以支撑...

行协议参考

行协议（Line Protocol）是一种基于文本的格式，用于将数据点写入TSDB For InfluxDB®。行协议语法[,<tag_key>=[,<tag_key>=]]<field_key>=[,<field_key>=][]使用换行符分隔每一行，每一行表示TSDB For InfluxDB®中的一个数据点。行协议...

COPY

COPY TO 把一个表的内容复制到一个文件，而 COPY FROM 则从一个文件复制数据到一个表（把数据追加到表中原有数据）。COPY TO 也能复制一个 SELECT 查询的结果。如果指定了一个列列表，COPY TO 将只把指定列的数据复制到文件。对于 COPY ...

使用说明

PolarDB MySQL版多主集群（库表）实现从一写多读架构到多写多读架构的升级；支持不同数据库在不同计算节点并发写入；支持数据库跨节点动态调度，秒级完成切换，极大提升实例整体并发读写能力。本文介绍多主集群（库表）的使用说明。前提...

基本概念

本文将向您介绍云数据库ClickHouse 产品中涉及的一些基本名词概念，以便于您更好地理解云数据库ClickHouse 产品。地域（Region）购买云数据库ClickHouse 的服务器所处地理位置。您需要在购买云数据库ClickHouse 服务时指定Region，...

DataWorks On MaxCompute使用说明

二、数据建模与开发模块描述相关文档数据建模数据建模是全链路数据治理的第一步，沉淀阿里巴巴数据中台建模方法论，从数仓规划、数据标准、维度建模、数据指标四个方面，以业务视角对业务的数据进行诠释，让企业内部实现“数同文”的...

基本介绍

目前，云原生多模数据库Lindorm是阿里集团最基础存储设施之一，在多年的阿里巴巴双十一全球狂欢节上提供优秀的大数据在线存储能力，支撑了数百PB规模的存储和其每秒数亿次的峰值访问、每日数十万亿次的海量吞吐。相比HBase开源版，云数据库...

什么是Dataphin

Dataphin是阿里巴巴集团OneData数据治理方法论内部实践的云化输出，一站式提供数据采、建、管、用全生命周期的大数据能力，以助力企业显著提升数据治理水平，构建质量可靠、消费便捷、生产安全经济的企业级数据中台。Dataphin兼容多种计算...

文档修订记录

DataWorks数据安全治理路线 2023年12月更新记录时间特性类别描述产品文档 2023.12.29 新增功能数据开发若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务，需先将已创建的数据源或集群绑定至数据开发...

如何基于LSM-tree架构实现一写多读

LSM-tree数据库引擎 LSM-Tree全称是Log Structured Merge Tree，是一种分层、有序，面向磁盘设计的数据结构，其核心思想是利用磁盘批量的顺序写要比随机写性能高的特点，将所有更新操作都转化为追加写方式，提升写入吞吐。LSM-tree类的存储...

FAQ

如果RP的新 DURATION 小于旧的 SHARD DURATION，并且TSDB For InfluxDB®正在将数据写入一个旧的、DURATION 较长的shard group，那么系统将强制把所有数据存储在该shard group中，即使该shard group中有些数据已经在新的 DURATION 之外。...

Tunnel命令常见问题

上传数据时，每个Session的生命周期是一天，因源表数据太大，导致Session超时任务失败，如何解决？上传Session太多导致上传速度慢，如何解决？导入数据的最后一列为什么会多出\r符号？使用Tunnel Upload命令上传数据时，默认用逗号进行列...

离线同步常见问题

脏数据限制设置为多少就是不允许有多少条脏数据，若限制为0即在发现第一条脏数据时就会停止任务，此时有可能已经传几条数据了，或者没有传输数据（脏数据在所有数据中位于第一条时）。如何排查离线同步任务运行时间长的问题？可能原因1：...

行协议教程

TSDB For InfluxDB®的行协议（Line Protocol）是一种基于文本的格式，用于将数据点写入数据库。数据点必须符合行协议格式，TSDB For InfluxDB®才能成功解析和写入数据点。语法行协议中，一行数据表示TSDB For InfluxDB®中的一个数据点...

云产品集成

大数据开发治理平台 DataWorks DataWorks 是一款为数据仓库、数据湖、湖仓一体等解决方案提供统一的全链路大数据开发治理平台。您可以使用 DataWorks 添加 ApsaraDB For OceanBase 数据源，管理 OceanBase 数据库中的数据，通过数据集成...

常见问题

支持的数据库部署位置（接入方式）阿里云实例有公网IP的自建数据库通过数据库网关DG接入的自建数据库通过云企业网CEN接入的自建数据库 ECS上的自建数据库通过专线/VPN网关/智能接入网关接入的自建数据库阿里云实例通过数据库网关DG接...

产品概述

什么是PolarDB PolarDB 是阿里巴巴自研的新一代云原生数据库，在计算存储分离架构下，利用了软硬件结合的优势，为用户提供具备极致弹性、高性能、海量存储、安全可靠的数据库服务。100%兼容MySQL和PostgreSQL生态，高度兼容Oracle语法。...

通过DTS导入数据

DTS支持迁移全量数据及增量数据，您可以通过DTS迁移MySQL数据库（例如自建MySQL、RDS MySQL和PolarDB MySQL）同步或迁移至云数据库 SelectDB 版，并在云数据库 SelectDB 版上完成亚秒级响应海量数据查询、万级高并发点查询以及高吞吐...

什么是云原生内存数据库Tair

云原生内存数据库Tair 是阿里云国产自研的云原生内存数据库。在完全兼容Redis的基础上，提供了丰富的数据模型和企业级能力来帮助客户构建实时在线场景。同时，Tair与新型存储介质——持久内存的高效结合，相比内存型，成本降低30%以上，并...

什么是数据管理DMS

数据管理DMS（Data Management）是一款支撑数据全生命周期的一站式数据管理平台。DMS提供全域数据资产管理、数据治理、数据库设计开发、数据集成、数据开发和数据消费等功能，致力于帮助企业高效、安全地挖掘数据价值，助力企业数字化转型...

产品简介

大数据专家服务 大数据专家服务（Bigdata Expert Service）是由阿里云大数据专家基于阿里云多年大数据架构、应用、运维、AI算法建模等最佳实践经验及方法论为用户提供全方位的大数据产品技术、咨询服务及售后专家服务运维保障，帮助用户...

DataWorks V3.0

MaxCompute：大数据计算服务MaxCompute（原ODPS）是一种快速、完全托管的EB级大数据计算引擎，是大规模离线数据仓库的核心引擎。MaxCompute是DataWorks最早支持，且最成熟完备的计算引擎，目前已基本覆盖MaxCompute的所有功能。详情请参见 ...

数据导入概览

使用DataWorks数据集成同步数据到GDB DataWorks 是阿里云上的一站式大数据智能云研发平台，其中数据集成服务支持导出数据到GDB，您也可以使用平台完成数据计算、筛选、转换等处理再同步到GDB。DataWorks的GDB数据源底层由GdbWriter插件提供...

论大数据是一把双刃剑

新品推荐