文档

公开数据集参考

更新时间:

如果您已开通MaxCompute服务,可以通过MaxComputeSQL分析连接获取到公开数据集中的表,并查询这些表,以便您快速试用MaxCompute。本文为您介绍公开数据集信息,并指导您如何通过MaxComputeSQL分析连接查询并分析数据。

MaxCompute开放的公开数据集类别包括:股票、二手房产、影视及票房、手机号码归属、行政及城乡区划代码信息。所有的数据均存储在MaxCompute产品的公开项目MAXCOMPUTE_PUBLIC_DATA中。

声明

MaxCompute提供的公开数据集数据只能用于产品测试,数据将不做周期更新,且不保障数据准确性,因此请您勿用于正式生产。

注意事项

公开数据集通过MaxCompute的特殊授权机制实现公开授权,对所有的MaxCompute用户开放。在使用过程中,您需要注意:

  • 公开数据集的数据均存储在一个名为MAXCOMPUTE_PUBLIC_DATA的项目中,但所有用户并未被加入到该项目中,即非项目空间成员。因此,用户需要跨项目访问数据,在编写SQL脚本时,必须在表名前指定项目名称。命令示例如下。

    SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.ods_enterprise_share_basic WHERE ds = '20170114';
    说明

    公开数据集的数据无需付费即可查看,但是执行查询语句会产生相应计算费用。费用计算规则请参见计算费用(包年包月)计算费用(按量计费)

  • 由于公开数据集需要跨项目访问,您在DataWorks的数据地图中无法查找到公开数据集中的表。

公开数据集

MAXCOMPUTE_PUBLIC_DATA项目数据集中的表详细信息如下。

  • 股票

    项目名称

    MAXCOMPUTE_PUBLIC_DATA

    表名称

    股票相关表信息如下:

    • ods_enterprise_share_basic(股票基本信息表)

    • ods_enterprise_share_quarter_cashflow(季度现金流报表)

    • ods_enterprise_share_quarter_growth(季度业务增长数据表)

    • ods_enterprise_share_quarter_operation(季度财务周转数据表)

    • ods_enterprise_share_quarter_profit(季度利润表)

    • ods_enterprise_share_quarter_report(季度报表)

    • ods_enterprise_share_trade_h(股票价格表)

    更新周期

    提供固定日期分区的数据,不再做增量更新。

    查询表结构

    DESC MAXCOMPUTE_PUBLIC_DATA.table_name;

    查询示例

    SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.ods_enterprise_share_basic WHERE ds ='20170114';

  • 二手房产

    项目名称

    MAXCOMPUTE_PUBLIC_DATA

    表名称

    dwd_prouduct_house_basic_info_out(二手房数据)

    更新周期

    提供固定日期分区的数据,不再做增量更新。

    查询表结构

    DESC MAXCOMPUTE_PUBLIC_DATA.table_name;

    查询示例

    SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.dwd_prouduct_house_basic_info_out WHERE ds= '20170113';

  • 影视及票房

    项目名称

    MAXCOMPUTE_PUBLIC_DATA

    表名称

    影视及票房相关表信息如下:

    • dwd_product_movie_basic_info(电影基本信息表)

    • ods_product_movie_box(票房基本信息表)

    更新周期

    提供固定日期分区的数据,不再做增量更新。

    查询表结构

    DESC MAXCOMPUTE_PUBLIC_DATA.table_name;

    查询示例

    SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.dwd_product_movie_basic_info WHERE ds ='20170112' limit 10;

  • 行政及城乡区划代码

    项目名称

    MAXCOMPUTE_PUBLIC_DATA

    表名称

    dwd_product_areacode_basic_info_2020(2020年行政及城乡区划代码基本信息表)

    更新周期

    提供固定数据,不再做增量更新。

    查询表结构

    DESC MAXCOMPUTE_PUBLIC_DATA.table_name;

    查询示例

    SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.dwd_product_areacode_basic_info_2020 limit 10;

  • 手机号码归属地

    项目名称

    MAXCOMPUTE_PUBLIC_DATA

    表名称

    dwd_product_phoneno_basic_info_2020(2020年手机号归属地基本信息表)

    更新周期

    提供固定数据,不再做增量更新。

    查询表结构

    DESC MAXCOMPUTE_PUBLIC_DATA.table_name;

    查询示例

    SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.dwd_product_phoneno_basic_info_2020 limit 10;

  • 原始样本骨架

    从淘宝网站中随机抽样100+万用户8天内的展示广告点击日志,构成原始的样本骨架。

    项目名称

    MAXCOMPUTE_PUBLIC_DATA

    表名称

    raw_sample

    更新周期

    提供固定数据,不再做增量更新。

    查询表结构

    DESC MAXCOMPUTE_PUBLIC_DATA.table_name;

    查询示例

    SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.raw_sample limit 10;

  • 广告基本信息

    涵盖了raw_sample表中部分广告的基本信息。

    项目名称

    MAXCOMPUTE_PUBLIC_DATA

    表名称

    ad_feature

    更新周期

    提供固定数据,不再做增量更新。

    查询表结构

    DESC MAXCOMPUTE_PUBLIC_DATA.table_name;

    查询示例

    SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.ad_feature limit 10;

  • 用户基本信息

    涵盖了raw_sample中全部用户的基本信息。

    项目名称

    MAXCOMPUTE_PUBLIC_DATA

    表名称

    user_profile

    更新周期

    提供固定数据,不再做增量更新。

    查询表结构

    DESC MAXCOMPUTE_PUBLIC_DATA.table_name;

    查询示例

    SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.user_profile limit 10;

  • 用户的行为日志

    涵盖了raw_sample中全部用户22天内的购物行为。

    项目名称

    MAXCOMPUTE_PUBLIC_DATA

    表名称

    behavior_log

    更新周期

    提供固定数据,不再做增量更新。

    查询表结构

    DESC MAXCOMPUTE_PUBLIC_DATA.table_name;

    查询示例

    SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.behavior_log limit 10;

使用公开数据集

开通MaxCompute服务后,您可以登录MaxCompute控制台,单击查询编辑,进入DataWorks数据分析页面,执行SQL语句查询、分析和下载公开数据集中的表数据。快速使用操作请参见快速体验MaxCompute

例如,您可以通过MAXCOMPUTE_PUBLIC_DATA.dwd_product_phoneno_basic_info_2020(手机号码归属地信息表)查询号码段1779980的详细信息。命令示例如下。

SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.dwd_product_phoneno_basic_info_2020 WHERE phoneno='1779980';

返回结果如下。返回结果