数据存储系统设计-数据存储系统设计文档介绍内容-阿里云

集群容灾能力

Hadoop HDFS是一个经历了长时间考验且具有高可靠性的数据存储系统，已实现了海量数据的高可靠性存储。同时基于云上的特性，您也可以再在OSS等服务上额外备份数据，以达到更高的数据可靠性。服务容灾 Hadoop的核心组件都会进行HA部署，即有...

数据上云工具

DataWorks数据集成（Tunnel通道系列）DataWorks数据集成（即数据同步），是一个稳定高效、弹性伸缩的数据同步平台，致力于为阿里云上各类异构数据存储系统提供离线全量和实时增量的数据同步、集成、交换服务。其中数据同步任务支持的数据源...

产品简介

EMR还可以与阿里云其他的云数据存储系统和数据库系统（例如，阿里云OSS和RDS等）进行数据传输。产品介绍阿里云EMR提供了on ECS、on ACK和Serverless形态，以满足不同用户的需求。形态描述 EMR on ECS EMR负责将开源Hadoop生态的组件安装...

JindoFS块存储模式

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

产品概述

EMR还可以与阿里云其他的云数据存储系统和数据库系统（例如，阿里云OSS和RDS等）进行数据传输。阿里云EMR提供了on ECS、on ACK和Serverless形态，以满足不同用户的需求。形态描述 EMR on ECS EMR负责将开源Hadoop生态的组件安装部署在ECS...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。权限说明仅支持超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据...

概述

Flume最终会将数据落地到实时计算平台（例如Flink、Spark Streaming和Storm）、离线计算平台上（例如MR、Hive和Presto），也可仅落地到数据存储系统中（例如HDFS、OSS、Kafka和Elasticsearch），为后续分析数据和清洗数据做准备。...

创建Hudi数据源

背景信息 Hudi即Apache Hudi，Hudi是一个通用的大数据存储系统，将核心仓库和数据库功能直接引入到数据库中，并支持记录级别的插入更新和删除数据的能力。更多信息，请参见 Apache Hudi官网。权限说明仅支持超级管理员、数据源管理员、...

SmartData使用说明（EMR-3.20.0~3.22.0版本）

应用场景 E-MapReduce目前提供了三种大数据存储系统，E-MapReduce OssFileSystem、E-MapReduce HDFS和E-MapReduce JindoFS，其中OssFileSystem和JindoFS都是云上存储的解决方案，下表为这三种存储系统和开源OSS各自的特点。特点开源OSS E-...

数据服务系统配置

Dataphin系统的redis：将缓存数据存储到系统公共的Redis中，将与其他模块共享存储空间，适用于缓存数据量较小的场景。应用内存：缓存数据量较大时不建议使用，占用内存会影响系统的响应速率。适用于个别API需要开启缓存且数据量很少的场景 ...

JindoData概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括JindoFS存储系统（原JindoFS Block模式）、...

快速玩转Tablestore入门与实战

现代IM系统中的消息系统架构-架构篇现代IM系统中的消息系统架构-模型篇现代IM系统中的消息系统架构-实现篇 Tablestore Timeline：轻松构建千万级IM和Feed流系统 Feed流系统设计-总纲如何打造千万级Feed流系统高并发IM系统架构优化实践 ...

东软案例

解决方案东软集团围绕运营商、政务云和汽车等行业新一代数字信息系统IT运维场景海量监控数据存储分析痛点，将从遍布全国多地域的手机、平板等终端连接应用系统业务服务的数字足迹和客户数字体验数据、云端&数据中心网络抓包分析数据，应用...

OSS/OSS-HDFS概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

存储资源

存储资源需要提供数据的持久性、可靠性和高效性，以满足系统的数据存储和访问需求。存储资源的性能直接影响计算资源的处理能力，存储资源的可靠性直接影响数据的准确性。以下详细介绍5个计算资源风险点和应对的容错策略。本地磁盘满节点的...

开启智能存储分层

重要 存储保存时间配置存在相应限制，具体信息，请参见 数据存储生命周期管理。开启智能存储分层登录日志服务控制台。在Project列表区域，单击目标Project。在日志存储>日志库页签中，单击目标Logstore对应的图标，然后单击修改。在 ...

数据存储生命周期管理

本文介绍存储保存时间迁移策略。生命周期管理策略热存储数据至少需保存7天才能转换为低频存储，当数据的存储时间超过配置的热存储层数据保存时间后，数据自动由热存储转为低频存储。热存储数据至少需保存30天才能直接转换为归档存储，当...

外部表概述

MaxCompute支持使用外部表功能查询和分析存储于OSS等外部存储系统的数据。该机制使得用户可以无需将数据导入到MaxCompute内部存储，直接对外部数据进行操作，从而提供了数据处理的灵活性和方便性。背景信息 MaxCompute SQL作为分布式数据...

管理EventStore

数据热存储至少7天后才能转为低频存储，数据热存储至少30天后才能转为归档存储，数据低频存储至少30天后才能转为归档存储，详细信息，请参见 数据存储生命周期管理。数据热存储、低频存储及归档存储相关费用，请参见计费项。Shard数目 ...

基本概念

逻辑模型：反映的是系统分析设计人员对数据存储的观点，是对概念数据模型进一步的分解和细化；数据资源平台中可通过手动、DDL语句、EXCEL导入、云计算资源扫描的方式来实现逻辑模型创建。物理模型：是对真实数据库的描述；数据资源平台中...

应用场景

数据存储：长期保存车辆轨迹信息以及车辆状态信息，需要单表规模极大以及高性价比存储。实时地理围栏：实时数据的地理围栏报警，需要支持对接实时计算进行实时数据统计分析。海量车辆管理：海量车辆的诸多状态信息的数据管理与查询分析，...

Trino概述

Worker节点负责执行下发到任务，通过连接器读取外部存储系统到数据，进行处理，并将处理结果发送给Coordinator节点。应用场景 Trino是定位在数据仓库和数据分析业务的分布式SQL引擎，适合以下应用场景：ETL Ad-Hoc查询海量结构化数据或半...

计费常见问题

据统计分析，大部分用户文件系统中80%的数据均为冷数据，按80/20定律进行成本估算，使用低频存储后，原性能型NAS文件系统的有效存储成本可降低至0.49元/月/GiB，原容量型NAS文件系统的有效存储成本可降低至0.19元/GiB/月。购买了资源包什么...

冷热分离介绍

冷热分离功能支持将冷热数据存储在不同的介质上，冷存储的存储类型为容量型存储，热存储的存储类型为标准型云存储、性能型云存储、本地SSD盘或本地HDD盘。冷存储的价格仅为标准型存储的20%，大大降低了存储成本。原理简介在功能实现上，...

引擎简介

核心能力低成本通过高密度低成本介质、智能冷热分离、高压缩比算法、自适应编码等技术，达到海量数据存储处理成本比自建低80%。云原生弹性通过存计分离架构和Serverless技术，支持计算和存储资源的按需即时弹性。企业级稳定性基于高...

新零售：特步

基于 PolarDB-X+RDS的分布式数据库解决方案提升了客户业务系统数据读写的扩展能力和数据存储的扩展能力，系统具备100 TB数据存储的能力、10万TPS、百万QPS的支撑能力，可以支撑业务扩展至当前业务量的5~10倍。PolarDB-X 的平滑扩容和弹性...

上海新能源汽车车辆基础数据

客户感言 2019年开始上海市新能源汽车大数据平台从自建Hadoop集群迁移至阿里云Lindorm+DLA Spark产品，有效解决了我们平台存储和计算的横向动态扩容瓶颈，同时借助其产品中间件LTS实现了我们平台数据的冷热分离，有效降低了数据存储成本，...

流式数据通道概述

热数据存储量会出现增长情况：在开启异步处理的场景下（Merge或Zorder），MaxCompute流式数据通道服务会对最近一小时写入的数据保存两份，一份为原始数据，一份为异步聚合后的数据，数据的存储量会有一定程度的冗余。冗余数据的保存周期...

常见问题

影视渲染行业：影视制作、媒资管理的素材等数据存储，帮助客户提供高弹性、海量的数据存储空间；同时，结合IMM（智能媒体处理产品）可以实现存储+数据智能处理的解决方案。基因行业：基因测序、交付、诊断等基因上下游业务的数据存储需求，...

数仓分层

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。数据仓库的分层和各层级用途如下图所...

数仓分层

在阿里巴巴的数据体系中，我们建议将数据仓库分为三层，自下而上为：数据引入层（ODS，Operation Data Store）、数据公共层（CDM，Common Data Model）和数据应用层（ADS，Application Data Service）。数据仓库的分层和各层级用途如下图所...

概述

数据同步过程中，数据源中的数据存储在目标数据仓库OSS中，搭建数据仓库过程中不会对数据源端的业务系统产生任何压力。通过DLA控制台配置建仓任务，支持自定义设置定时数据投递。极致的计算能力，充分发挥DLA的计算能力，通过DLA的大内存、...

引擎类型

计算引擎是基于云原生架构提供的分布式计算服务，支持社区版计算模型以及编程接口，同时深度融合Lindorm存储引擎特性，利用底层数据存储特征以及索引能力，高效地完成分布式作业任务。流引擎兼容SQL、Kafka接口 IoT数据处理、应用日志处理...

内置存储与用户OSS

数据库备份DBS提供数据库的备份恢复能力，备份数据保存在云存储上，云存储支持内置存储、用户OSS。对比项 DBS内置存储用户OSS 安全性客户无法直接访问备份集。已接入DBS安全权限体系。客户可直接访问备份集。需要自行管理备份集安全。...

高级管理

PolarDB-X 1.0 SQL审计与分析支持高级管理，您可以通过高级管理跳转到日志服务控制台，修改SQL日志的存储时间、对SQL日志进行实时订阅与消费、数据投递和对接其他可视化等高级操作。开启SQL日志审计后，在当前页面右上角单击高级管理 ...

混合存储型（已停售）

使用混合存储型，将所有课程信息存储到磁盘，访问量大的课程和题库数据存储到内存并常驻内存，保证高频访问数据的读写性能，实现高性能与高性价比的有机结合。典型业务场景的示例如下：场景1：使用开源Redis集群存储了100GB的数据，但高峰...

概述

表格存储是阿里云自研的多模型结构化数据存储，支持多种数据模型，包括宽表模型和时序模型。您可以将Kafka数据同步到表格存储中的数据表（宽表模型中的表类型）或者时序表（时序模型中的表类型）。具体操作，请分别参见同步数据到数据表 ...

概述

文件存储CPFS 文件存储CPFS（Cloud Paralleled File System）是一款并行文件系统，其数据存储在集群中的多个数据节点，多个客户端可以同时访问，满足大型高性能计算机集群的高IOPS、高吞吐、低时延的数据存储需求。文件存储HDFS版文件存储...

产品简介

湖管理，将为您提供对湖内数据存储的分析及优化建议，加强对数据生命周期管理，优化使用成本，方便您进行数据运维管理。应用场景数据分析场景，通过元数据发现、数据探索能力，可以快速的对OSS内结构化、半结构化数据进行分析、探索。结合...

应用场景

实时数据通道 1.1 接入多种异构数据并投递到下游多种大数据系统 通过数据总线，您可以实时接入APP、WEB、IoT和数据库等产生的异构数据，统一管理，并投递到下游的分析、归档等系统，构建清晰的数据流，让您更好的释放数据的价值。...

数据存储系统设计

新品推荐