数据湖分析

更新时间:
复制为 MD 格式

实践教程

文档链接

简介

MaxCompute湖上数据加工和多场景联动实践

通过MaxLake实现数据入湖入仓及多场景分析联动,以车联网数据为例,通过车辆上报的GPS定位信息分析行驶里程和速度,并联动多引擎满足即时查询报表、跨团队协作与脱敏分享、AI训练等应用场景,实现一份数据,多重价值。

基于DLF1.0+OSS读取湖上CSV数据

通过配置DLF,将数据从OSS抽取到DLF元数据中,并使用MaxComputeexternal schema进行数据湖联邦查询。该方案可以方便地进行数据分析和处理,并保证数据的可靠性和安全性。

基于DLF1.0+OSS读取湖上Paimon数据

基于Flink创建Paimon DLF Catalog,读取MySQL CDC数据并写入OSS,进一步将元数据同步到DLF,进而使用MaxComputeexternal schema进行数据湖联邦查询。

使用Schemaless Query方式读取湖上Parquet数据

E-MapReduceServerless Spark集群为例,介绍在MaxCompute中如何使用Schemaless Query的方式读取Spark SQL生成的Parquet文件,并在计算完成后将结果通过UNLOAD命令传回至OSS。

基于HMS+HDFS读取Hadoop Hive数据

E-MapReduceHive为例,介绍在MaxCompute中如何创建外部schema,并查询Hadoop中的Hive表数据。

创建面向Hologres的元数据映射和数据同步

基于MaxCompute创建面向Hologres的元数据映射和数据同步。

使用外部项目基于FileSystem Catalog读写湖上Paimon数据

基于Flink创建Paimon Catalog并生成数据,MaxCompute根据Filesystem Catalog创建外部项目,从而直接读取Paimon表数据。

(邀测)使用外部项目基于DLF读写湖上Paimon数据

基于Flink创建Paimon DLF Catalog,读取MySQL CDC业务数据写入DLF,进而使用MaxCompute的外部项目进行数据湖联邦查询分析,再将结果写回到DLF。本文使用新版本DLF,区别于旧版DLF1.0