按扫描量付费是一种先使用后付费的计费方式,即根据扫描的字节(Byte)数收费,不收取其他任何费用。当您通过DLA对本地或第三方数据源中的数据进行关联分析,DLA会根据扫描的数据量进行计费。本文主要介绍按扫描量付费DLA的计费规则和计费示例

计费规则

计费时,DLA保证扫描的每条数据至少为32MB。DLA每小时生成一个收费订单,并从您的阿里云账号扣费。您可以登录数据湖分析管理控制台,通过费用 > 订单查看消费记录。

如何节省费用

您可以先通过以下3种方式对原始数据进行处理,然后再使用DLA扫描数据,可以节省一定的费用。
  • 格式转换:把原始数据的格式转换为高性能格式。

    DLA支持多种高性能数据格式,例如Apache ORC、Apache Parquet、Avro格式。您可以根据不同的业务需求,把原始数据转换为上述三类格式,然后只扫描您需要的数据列,无需扫描所有数据,从而节省扫描费用。

  • 压缩数据:对原始数据进行压缩来减少数据量,建议压缩格式为Parquet或者Orc格式,然后使用DLA扫描压缩过的数据,从而节省扫描费用。
  • 数据分区:通过分区的方式,把原始数据存储在不同的分区中,DLA只扫描其中的一个或者几个分区,无需扫描所有分区,从而节省扫描费用。

计费示例

您在OSS中存储了两个容量均为1 TB的CSV文件和JSON文件,在RDS中存储一个容量为1TB的数据表。如果您想通过DLA对OSS和RDS中的数据进行关联分析,根据扫描的数据量,您需要支付的费用为:28+28+28=84元。

针对上述计费示例,您可以通过以下方式来节省DLA扫描费用。
  • 将1TB的CSV文件压缩为GZIP格式,压缩后的文件大小为0.4 TB。然后将GZIP格式的数据分区存储,将待扫描的数据存储在同一个分区中。DLA只扫描一个分区,扫描的数据量降低至0.2 TB。
  • 将1 TB的JSON文件转换为ORC格式,DLA只需按列扫描其中10%的数据,扫描的数据量降低至0.1 TB。

经过数据格式转换、压缩和分区后,根据DLA计费模式,您需要支付的DLA扫描费用变更为:28×0.2+28×0.1+28=36.4元,总共为您节省47.6元。