大数据就是这么任性第一季数据结构和算法-大数据就是这么任性第一季数据结构和算法文档介绍内容-阿里云

基本概念

数据资产：数据资源平台中存在大量的数据表、标签、API等各类数据资产，数据管理者通过数据汇聚、数据治理、数据分析后，需要对整个平台数据进行统一管控，了解平台的核心数据资产，提供对应的数据资产管理规范。统一服务应用：是调用API...

PolarDB PostgreSQL版（兼容Oracle）间的迁移

2.0版本引入了新的查询优化算法和存储引擎，提高了查询速度和并发处理能力，能够更快地处理大量数据，提升数据库的响应能力和性能。此外，2.0版本还引入了许多新的功能和增强功能，提供更好的用户体验和开发者工具。例如，改进了对JSON数据...

数据模型

一张表包括行（Row）和列（Column），Row即您数据表中的一行数据，Column用于描述一行数据中不同的字段。Column可以分为两大类：Key和Value。从业务角度看，Key和Value可以分别对应维度列和指标列。在SelectDB建表语句的列中，关键字 ...

2023年

使用do-while节点实现复杂的数据分析 2023-09-20 新增通过跨项目数据访问实现不同地域MaxCompute项目数据迁移新说明本文为您介绍如何通过跨项目数据访问实现不同Region的MaxCompute项目数据迁移，包括两种使用场景：同云账号内不同Region...

列存索引中TopK算子的实现

在海量数据上求TopK是一个很经典的问题，特别是衍生出的深翻页查询，给分析型数据库带来了很大的挑战。本文将介绍 PolarDB MySQL版的列存索引（In Memory Column Index，IMCI）特性如何应对这样的挑战。背景业务系统中普遍存在这样一种...

低成本RDS历史库

Lindorm时序引擎融入了许多创新型的高性能结构设计，其基准性能在目前的信通院榜单中处于第一的位置，优于其他专用时序数据库。支持智能冷热分离，针对数据随着时间线逐渐热变冷的场景，典型如监控、社交聊天、交易账单等，Lindorm内部将...

应用场景：低成本历史库

云原生多模数据库 Lindorm 和关系型数据库同时使用时可以满足低存储成本，方便运维，弹性伸缩等需求，本文介绍其方案架构和优势。重要 2023年3月10日后购买的LTS 不再支持低成本历史库场景，2023年3月10日前购买的LTS仍支持该场景。背景...

时序异常检测

算法中数据结构的空间复杂度。参数值越大算法在运行过程中越占用内存，但是算法结果越准确。lenHistoryWindow INTEGER 正整数，默认值为null，取值≥20。算法参考的时间窗口长度。如果时间窗口长度比较短，计算过程中只会将最近的数据点...

模型创建

Lindorm AI引擎支持导入预训练AI模型，对数据库内的数据进行分析和处理或对时序数据进行建模，执行时序分析类任务。语法 CREATE MODEL model_name FROM {table_name|(select_statement)|model_file_path|huggingface_repo|modelscope_repo}...

MapReduce

海量数据挖掘：非结构化数据、时空数据和图像数据挖掘。机器学习：监督学习、无监督学习和分类算法（例如决策树、SVM）。自然语言处理：基于大数据的训练和预测。基于语料库构建单词同现矩阵，频繁项集数据挖掘、重复文档检测等。广告推荐...

IoT数据自动化同步至云端解决方案

大数据分析是大数据完成数据价值化的重要手段之一，而进行大数据分析的第一步是让数据成功上云。解决方案 IoT数据自动化同步至云端解决方案主要包括存储原始数据和同步数据至分析系统两部分。IoT设备大量的数据通常以半结构化的形式存储。...

Teradata应用迁移至AnalyticDB PostgreSQL

本指南在将TD数仓应用迁移至 AnalyticDB PostgreSQL 云化数仓过程中，秉承充分复用旧系统架构、ETL算法、数据结构和工具的原则，需对原加工脚本进行转换，另外，需对历史数据进行迁移，并保证数据的准确性，完整性。对数据仓库基础数据平台...

从Oracle迁移应用至阿里云PolarDB全流程指南

数据库和应用迁移ADAM：Advanced Database&Application Migration（以下简称ADAM）是一款把数据库和应用迁移到阿里云（公共云或专有云）的产品，显著地降低了上云的技术难度和成本，尤其是Oracle数据库应用。ADAM全面评估上云可行性、成本...

RDS术语

本文介绍云数据库RDS中的相关名词和术语。A 安全组安全组是一种虚拟防火墙，用于控制安全组中的ECS实例的出入流量。在RDS白名单中添加安全组后，该安全组中的ECS实例就可以访问RDS实例。更多信息，请参见设置安全组。按量付费后付费，即...

DataHub成本节省攻略

这个就是我们引入的batch序列化，batch序列化本质上就是DataHub数据传输中数据的定义的一种组织方式，batch并不是特指某种序列化的方式，而是对序列化的数据做了一个二次封装，比如我一次发送100条数据，那我把这100条数据序列化后得到一个...

RDS术语

本文介绍云数据库RDS中的相关名词和术语。A AliPG 阿里云支持一系列兼容PostgreSQL的云数据库服务产品，这些云数据库服务采用统一的数据库内核（简称AliPG），AliPG兼容PostgreSQL开源数据库，于2015年正式商用，支持PostgreSQL主流大版本...

X-Engine简介

因为目标是面向大规模的海量数据存储，提供高并发事务处理能力和降低存储成本，在大部分大数据量场景下，数据被访问的机会是不均等的，访问频繁的热数据实际上占比很少，X-Engine根据数据访问频度的不同将数据划分为多个层次，针对每个层次...

RDS术语

本文介绍云数据库RDS中的相关名词和术语。A 安全组安全组是一种虚拟防火墙，用于控制安全组中的ECS实例的出入流量。在RDS白名单中添加安全组后，该安全组中的ECS实例就可以访问RDS实例。更多信息，请参见设置安全组。按量付费后付费，即...

PolarDB PostgreSQL版间的迁移

通过数据传输服务DTS（Data Transmission Service），可以实现 PolarDB PostgreSQL版集群间的迁移。前提条件已创建源和目标 PolarDB PostgreSQL版数据库集群，详情请参见创建PolarDB PostgreSQL版数据库集群。已将源和目标 PolarDB ...

文档修订记录

DataWorks数据安全治理路线 2023年12月更新记录时间特性类别描述产品文档 2023.12.29 新增功能数据开发若您要在DataWorks中进行数据建模、数据开发或使用运维中心周期性调度任务，需先将已创建的数据源或集群绑定至数据开发...

RDS术语

本文介绍云数据库RDS中的相关名词和术语。A AliSQL 阿里云深度定制的独立MySQL分支，除了社区版的所有功能外，AliSQL提供了类似于MySQL企业版的诸多功能，如企业级备份恢复、线程池、并行查询等，并且AliSQL还提供兼容Oracle的能力，如...

RDS术语

本文介绍云数据库RDS中的相关名词和术语。A AliSQL 阿里云深度定制的独立MySQL分支，除了社区版的所有功能外，AliSQL提供了类似于MySQL企业版的诸多功能，如企业级备份恢复、线程池、并行查询等，并且AliSQL还提供兼容Oracle的能力，如...

新功能发布记录

数据脱敏管理支持影子表同步功能，根据源表的表结构在同一个数据库中自动创建和同步影子表结构。影子表同步影子表同步任务支持分区计划功能，自动预创建和删除过期的 RANGE 分区和 RANGE COLUMNS 分区。分区计划分区计划任务支持 SQL ...

X-Engine如何支撑钉钉跃居AppStore第一

在LSM存储结构中，如果把访问频率高的数据尽可能放在较高层次上，存放在快速存储设备中（例如NVM、DRAM），而把访问频率低的数据放在较低层次中，存放在廉价慢速存储设备中，这就是X-Engine冷热分层概念。X-Engine中冷热分离算法主要完成...

Cassandra数据建模

partition key：partition key是PRIMARY KEY的第一列，定义了Cassandra数据在通过Hash以后分布在哪个具体的节点。上述例子中，mytable1、mytable2、mytable3的partition key分别是name、name、(name,age)。拥有相同partition key的数据一般...

Cpc

TairCpc是基于CPC（Compressed Probability Counting）压缩算法开发的数据结构，支持仅占用很小的内存空间对采样数据进行高性能计算。背景信息在大数据实时决策场景中，通常会将业务日志流入实时计算系统完成计算，然后将计算结果存储至...

X-Engine最佳实践

X-Engine通过将最新写入的数据缓存在内存中并通过高效数据结构进行索引，可以实现极高的性能，而较少访问的历史数据则保存在磁盘，提供稍逊的读写性能。库表数据量特别大。传统InnoDB引擎迁移到X-Engine后，依据数据特征不同，存储空间可...

数据风险点监控

离线数据风险点监控数据准确性数据准确性是数据质量的关键，也是所有离线系统加工时的第一保障要素，详情请参见概述。下面为您介绍使用DataWorks的数据质量（DQC）保障MaxCompute离线数据的准确性。说明执行数据质量需使用DataWorks...

深度解析Lindorm搜索索引（SearchIndex）特性

为了解决写入的数据无法立即可查的问题，Lindorm基于Lucene实现了一种索引实时可见的方案，通过精细化的数据结构设计和动态的内存管理机制，可以保证索引数据一旦写入成功后可以立即查询到，真正做到实时性。CQL API CQL是Cassandra的...

非结构化数据向量检索

您可以通过AI算法提取非结构化数据的特征，并利用特征向量唯一标识非结构化数据。这些向量数据可以被Lindorm高性能地存储和检索。同时，Lindorm也支持向量数据与标量数据的混合检索。背景信息非结构化数据向量检索适用于以图搜图、声纹...

发展历程

2021年 IDC发布《IDC MarketScape：中国政务大数据管理平台市场厂商评估2021》报告，阿里云位居行业领导者位置，产品能力居中国第一。以MaxCompute为核心代表的阿里云数仓进入 Forrester Wave 2021 Q1云数据仓库卓越表现者象限，成为入选...

高效基因序列检索助力快速分析肺炎病毒

云原生数据仓库AnalyticDB MySQL版是云端托管的PB级高并发低延时数据仓库，通过 AnalyticDB MySQL版向量检索功能构建的基因检索系统，支持毫秒级针对10亿级别的向量数据进行查询分析，更加快速、高效的为肺炎病毒防控、研发治疗药物以及...

文档更新动态（2023年）

更新说明创建MySQL数据源创建PolarDB-X数据源创建AnalyticDB for MySQL 2.0数据源创建AnalyticDB for PostgreSQL数据源创建达梦（DM）数据源创建TiDB数据源创建Kafka数据源离线集成配置优化新增Apache Doris数据源的离线集成。...

功能更新动态（2023年）

创建MySQL数据源创建PolarDB-X数据源创建AnalyticDB for MySQL 2.0数据源创建AnalyticDB for PostgreSQL数据源创建达梦（DM）数据源创建TiDB数据源创建Kafka数据源离线集成新增Apache Doris数据源的离线集成。整库迁移任务支持...

CREATE MODEL

否 retrieval_num_shards INTEGER 向量索引使用的分片个数，向量数据和结构化数据进行融合检索时，每个索引表分片会先根据向量的相似查询获取topK数据，再基于合并后的topK数据进行结构化数据过滤。默认值为4。否 text_analyzer VARCHAR 此...

逻辑结构说明

Dataphin业务模型的核心概念具有一定的逻辑结构，您可以通过了解其结构，为后期项目规划、建模等提供思路。本文为您介绍Dataphin中核心概念的逻辑结构及简要含义。Dataphin核心概念的逻辑结构如下图所示。由上图可见，Dataphin的架构包括...

产品优势

支持防护常见的结构化数据、非结构化数据和大数据产品，例如对象存储OSS、云数据库RDS、MaxCompute等。智能化运用大数据和机器学习能力，通过智能化的算法，对敏感数据和高风险活动，例如数据异常访问和潜在的泄露风险进行有效识别和监控...

常见术语

数据湖数据湖是一个集中式存储库，允许您以任意规模存储所有结构化和非结构化数据，数据湖支持存储EB级别的数据，阿里云数据湖存储以OSS为代表！数据湖分析数据湖分析就是针对数据湖数据分析的方案。云原生数据湖分析（简称DLA）是新一代...

构建数据仓库

DataWorks具有通过可视化方式实现数据开发、治理全流程相关的核心能力，本文将为您介绍DataWorks在构建云上大数据仓库和构建智能实时数据仓库两个典型应用场景下的应用示例。构建云上大数据仓库本场景推荐的架构如下。适用行业：全行业...

数据库克隆

数据管理DMS的数据库克隆功能支持将源数据库的表结构和表数据复制至目标数据库中，实现全部表或部分表备份，适用多环境数据库初始化，例如将开发环境复制到测试环境。前提条件源数据库与目标数据库类型相同，且都为MySQL。数据库实例的...

大数据就是这么任性第一季数据结构和算法

新品推荐