数据湖分析-云原生大数据计算服务 MaxCompute-阿里云

实践教程

文档链接	简介
MaxCompute湖上数据加工和多场景联动实践	通过MaxLake实现数据入湖入仓及多场景分析联动，以车联网数据为例，通过车辆上报的GPS定位信息分析行驶里程和速度，并联动多引擎满足即时查询报表、跨团队协作与脱敏分享、AI训练等应用场景，实现一份数据，多重价值。
基于DLF1.0+OSS读取湖上CSV数据	通过配置DLF，将数据从OSS抽取到DLF元数据中，并使用MaxCompute的external schema进行数据湖联邦查询。该方案可以方便地进行数据分析和处理，并保证数据的可靠性和安全性。
基于DLF1.0+OSS读取湖上Paimon数据	基于Flink创建Paimon DLF Catalog，读取MySQL CDC数据并写入OSS，进一步将元数据同步到DLF，进而使用MaxCompute的external schema进行数据湖联邦查询。
使用Schemaless Query方式读取湖上Parquet数据	以E-MapReduce的Serverless Spark集群为例，介绍在MaxCompute中如何使用Schemaless Query的方式读取Spark SQL生成的Parquet文件，并在计算完成后将结果通过UNLOAD命令传回至OSS。
基于HMS+HDFS读取Hadoop Hive数据	以E-MapReduce的Hive为例，介绍在MaxCompute中如何创建外部schema，并查询Hadoop中的Hive表数据。
创建面向Hologres的元数据映射和数据同步	基于MaxCompute创建面向Hologres的元数据映射和数据同步。
使用外部项目基于FileSystem Catalog读写湖上Paimon数据	基于Flink创建Paimon Catalog并生成数据，MaxCompute根据Filesystem Catalog创建外部项目，从而直接读取Paimon表数据。
（邀测）使用外部项目基于DLF读写湖上Paimon数据	基于Flink创建Paimon DLF Catalog，读取MySQL CDC业务数据写入DLF，进而使用MaxCompute的外部项目进行数据湖联邦查询分析，再将结果写回到DLF。本文使用新版本DLF，区别于旧版DLF1.0。