如果您已开通MaxCompute服务,可以通过MaxComputeSQL分析连接获取到公开数据集中的表,并查询这些表,以便您快速试用MaxCompute。本文为您介绍公开数据集信息,并指导您如何通过MaxComputeSQL分析连接查询并分析数据。
MaxCompute开放的公开数据集类别包括:股票、二手房产、影视及票房、手机号码归属、行政及城乡区划代码信息。所有的数据均存储在MaxCompute产品的公开项目MAXCOMPUTE_PUBLIC_DATA中。
声明
MaxCompute提供的公开数据集数据只能用于产品测试,数据将不做周期更新,且不保障数据准确性,因此请您勿用于正式生产。
注意事项
公开数据集通过MaxCompute的特殊授权机制实现公开授权,对所有的MaxCompute用户开放。在使用过程中,您需要注意:
公开数据集的数据均存储在一个名为MAXCOMPUTE_PUBLIC_DATA的项目中,但所有用户并未被加入到该项目中,即非项目空间成员。因此,用户需要跨项目访问数据,在编写SQL脚本时,必须在表名前指定项目名称。命令示例如下。
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.ods_enterprise_share_basic WHERE ds = '20170114';
说明公开数据集的数据无需付费即可查看,但是执行查询语句会产生相应计算费用。费用计算规则请参见计算费用(包年包月)或计算费用(按量计费)。
由于公开数据集需要跨项目访问,您在DataWorks的数据地图中无法查找到公开数据集中的表。
公开数据集
MAXCOMPUTE_PUBLIC_DATA项目数据集中的表详细信息如下。
股票
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
股票相关表信息如下:
ods_enterprise_share_basic(股票基本信息表)
ods_enterprise_share_quarter_cashflow(季度现金流报表)
ods_enterprise_share_quarter_growth(季度业务增长数据表)
ods_enterprise_share_quarter_operation(季度财务周转数据表)
ods_enterprise_share_quarter_profit(季度利润表)
ods_enterprise_share_quarter_report(季度报表)
ods_enterprise_share_trade_h(股票价格表)
更新周期
提供固定日期分区的数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.ods_enterprise_share_basic WHERE ds ='20170114';
二手房产
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
dwd_prouduct_house_basic_info_out(二手房数据)
更新周期
提供固定日期分区的数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.dwd_prouduct_house_basic_info_out WHERE ds= '20170113';
影视及票房
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
影视及票房相关表信息如下:
dwd_product_movie_basic_info(电影基本信息表)
ods_product_movie_box(票房基本信息表)
更新周期
提供固定日期分区的数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.dwd_product_movie_basic_info WHERE ds ='20170112' limit 10;
行政及城乡区划代码
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
dwd_product_areacode_basic_info_2020(2020年行政及城乡区划代码基本信息表)
更新周期
提供固定数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.dwd_product_areacode_basic_info_2020 limit 10;
手机号码归属地
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
dwd_product_phoneno_basic_info_2020(2020年手机号归属地基本信息表)
更新周期
提供固定数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.dwd_product_phoneno_basic_info_2020 limit 10;
原始样本骨架
从淘宝网站中随机抽样100+万用户8天内的展示广告点击日志,构成原始的样本骨架。
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
raw_sample
更新周期
提供固定数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.raw_sample limit 10;
广告基本信息
涵盖了raw_sample表中部分广告的基本信息。
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
ad_feature
更新周期
提供固定数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.ad_feature limit 10;
用户基本信息
涵盖了raw_sample中全部用户的基本信息。
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
user_profile
更新周期
提供固定数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.user_profile limit 10;
用户的行为日志
涵盖了raw_sample中全部用户22天内的购物行为。
项目名称
MAXCOMPUTE_PUBLIC_DATA
表名称
behavior_log
更新周期
提供固定数据,不再做增量更新。
查询表结构
DESC MAXCOMPUTE_PUBLIC_DATA.table_name;
查询示例
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.behavior_log limit 10;
使用公开数据集
开通MaxCompute服务后,您可以登录MaxCompute控制台,单击查询编辑,进入DataWorks数据分析页面,执行SQL语句查询、分析和下载公开数据集中的表数据。快速使用操作请参见快速体验MaxCompute。
例如,您可以通过MAXCOMPUTE_PUBLIC_DATA.dwd_product_phoneno_basic_info_2020(手机号码归属地信息表)查询号码段1779980的详细信息。命令示例如下。
SELECT * FROM MAXCOMPUTE_PUBLIC_DATA.dwd_product_phoneno_basic_info_2020 WHERE phoneno='1779980';
返回结果如下。