DataWorks汇聚了丰富的官方真实数据(敏感数据已脱敏),每份数据均提供了具体业务场景的查询SQL,您可选择感兴趣的公共数据集执行示例SQL,分析结果可生成可视化图表及报告,快速体验DataWorks产品。
公开数据集列表
类型 | 数据集 | 数据来源及说明 | 数据类型 |
数字商业 | 本数据集来源天池阿里移动推荐算法挑战赛,基于阿里巴巴100万条脱敏的商品数据,可以基于各类商品、操作、时间等字段,体验阿里云大数据分析能力。 | 静态数据 | |
本数据集基于淘宝展示广告点击数据,随机抽样了114万用户8天内的广告展示/点击日志(2600万条记录),具体字段定义请查看表详情。 | 静态数据 | ||
本数据集包含了2017年11月25日至2017年12月3日之间,约100万脱敏用户随机行为(行为包括点击、购买、加购、喜欢),其中用户数量987,994,商品数量4,162,024,所有行为数量100,150,807。 | 静态数据 | ||
生活服务 | 本数据集来源于杭州文化和旅游数据在线开放平台(数据日期更新至2023.07.18),包含每日杭州市各区县的消费人数、消费金额和酒店入住率等旅游相关指标,可以在出游场景中快速分析各区县的出行情况和消费趋势等。 | 动态数据 | |
本数据集来自天池“阿里音乐流行趋势预测” 挑战赛,由清华大学和阿里云联合提供。以阿里音乐用户的历史播放数据为基础,通过对阿里音乐平台上每个阶段艺人的试听量进行分析,预测潮流趋势。 | 静态数据 | ||
本数据集包含了2010年至2022年间,全球各国家和地区的电动车和充电桩的统计情况,并且覆盖了每年的电动车销售数量、充电桩数量、电动车总电量需求等指标,可以对全球的电动车需求和使用情况进行统计分析;同时可以参考历史数据对未来电动车需求进行展望和预测。 | 静态数据 | ||
本数据集包含了2003年至2022年间,中国内地(不包含港、澳、台)各省份的年度生产总值数据,可以通过省份名称、年份来查询和探索各地区的人均地区生产总值、第一产业增加值、工业增加值、批发和零售业增加值等指标变化情况。 | 静态数据 | ||
本数据集是飞猪平台用户脱敏行为数据,其中包括用户的基本属性和商品基本属性的脱敏信息。可以从用户和用户群体的行为数据中对当前用户的兴趣进行分析、预测、推荐。 | 静态数据 | ||
本数据集包含了从1951年至2022年历届亚运会中各国家和地区获得奖牌的情况。 | 动态数据 | ||
科技教育 | 大量开发人员在GitHub上进行开源项目的开发工作,并在项目的开发过程中产生海量事件。GitHub会记录每次事件的类型及详情、开发者、代码仓库等信息,并开放其中的公开事件,包括加星标、提交代码等。 | 动态数据 | |
本数据集来源于QS Top Universities官网,收录了2022-2024年的世界大学排名情况,每所院校均包含总体评分、学术声誉、国际学生比例等可量化指标,可以分析目标院校在不同评分维度的变化趋势或排名情况等。 | 动态数据 | ||
本数据集包含了2003年至2021年间,中国内地(不包含港、澳、台)各省份的三大类专利申请和授权数据,可以通过省份名称、年份来查询和探索各地区的发明专利、实用新型专利、外观设计专利的申请和授权数量的变化趋势。 | 动态数据 |
前提条件
已开通DataWorks,并创建数据源。
说明公开数据集支持通过MaxCompute、Hologres和EMR Spark进行分析,创建其中任意一个数据源即可。
DataWorks绑定的Serverless资源组与MaxCompute、Hologres或EMR Spark数据源之间的网络连通性正常,详情可参见网络连通。
体验数据集
登录DataWorks控制台。点击左侧导航栏的 ,进入公共数据集页面。
本文以阿里电商数据集为例,单击右侧的开始分析,选择已创建的数据源,如MaxCompute。
DataWorks将自动进入数据分析模块,并自动填写查询SQL,在右上角切换已绑定的MaxCompute数据源后,再单击运行。
在查询结果中查看图表结果。
您还可以体验数据分析模块的更多功能,如增强分析、数据洞察等,具体请参见数据分析概述。
分享数据集
您可以在公开数据集页面,通过钉钉将数据集分享给其他用户。
后续操作
您可在导入目标公开数据集至DataWorks数据分析模块后,在数据分析模块基于公开数据集创建数据卡片和数据报告,并将报告一键分享给您的朋友。具体操作,请参见:增强分析(卡片和报告)。
相关参考
使用公开数据集的更多详细步骤,请参见大数据AI公共数据集分析。