使用公开数据集进行数据查询、分析和可视化

DataWorks汇聚了丰富的官方真实数据(敏感数据已脱敏),每份数据均提供了具体业务场景的查询SQL,您可选择感兴趣的公共数据集执行示例SQL,分析结果可生成可视化图表及报告,快速体验DataWorks产品。

公开数据集列表

类型

数据集

数据来源及说明

数据类型

数字商业

阿里电商数据集

本数据集来源天池阿里移动推荐算法挑战赛,基于阿里巴巴100万条脱敏的商品数据,可以基于各类商品、操作、时间等字段,体验阿里云大数据分析能力。

静态数据

淘宝广告数据集

本数据集基于淘宝展示广告点击数据,随机抽样了114万用户8天内的广告展示/点击日志(2600万条记录),具体字段定义请查看表详情。

静态数据

淘宝购物数据集

本数据集包含了2017年11月25日至2017年12月3日之间,约100万脱敏用户随机行为(行为包括点击、购买、加购、喜欢),其中用户数量987,994,商品数量4,162,024,所有行为数量100,150,807。

静态数据

生活服务

杭州市各区县旅游数据

本数据集来源于杭州文化和旅游数据在线开放平台(数据日期更新至2023.07.18),包含每日杭州市各区县的消费人数、消费金额和酒店入住率等旅游相关指标,可以在出游场景中快速分析各区县的出行情况和消费趋势等。

动态数据

阿里音乐数据集

本数据集来自天池“阿里音乐流行趋势预测” 挑战赛,由清华大学和阿里云联合提供。以阿里音乐用户的历史播放数据为基础,通过对阿里音乐平台上每个阶段艺人的试听量进行分析,预测潮流趋势。

静态数据

全球电动汽车数据集

本数据集包含了2010年至2022年间,全球各国家和地区的电动车和充电桩的统计情况,并且覆盖了每年的电动车销售数量、充电桩数量、电动车总电量需求等指标,可以对全球的电动车需求和使用情况进行统计分析;同时可以参考历史数据对未来电动车需求进行展望和预测。

静态数据

中国内地各地区生产总值数据集

本数据集包含了2003年至2022年间,中国内地(不包含港、澳、台)各省份的年度生产总值数据,可以通过省份名称、年份来查询和探索各地区的人均地区生产总值、第一产业增加值、工业增加值、批发和零售业增加值等指标变化情况。

静态数据

飞猪推荐数据集

本数据集是飞猪平台用户脱敏行为数据,其中包括用户的基本属性和商品基本属性的脱敏信息。可以从用户和用户群体的行为数据中对当前用户的兴趣进行分析、预测、推荐。

静态数据

亚运会奖牌数据集

本数据集包含了从1951年至2022年历届亚运会中各国家和地区获得奖牌的情况。

动态数据

科技教育

Github事件数据集

大量开发人员在GitHub上进行开源项目的开发工作,并在项目的开发过程中产生海量事件。GitHub会记录每次事件的类型及详情、开发者、代码仓库等信息,并开放其中的公开事件,包括加星标、提交代码等。

动态数据

QS世界大学排名

本数据集来源于QS Top Universities官网,收录了2022-2024年的世界大学排名情况,每所院校均包含总体评分、学术声誉、国际学生比例等可量化指标,可以分析目标院校在不同评分维度的变化趋势或排名情况等。

动态数据

中国内地专利申请和授权数据集

本数据集包含了2003年至2021年间,中国内地(不包含港、澳、台)各省份的三大类专利申请和授权数据,可以通过省份名称、年份来查询和探索各地区的发明专利、实用新型专利、外观设计专利的申请和授权数量的变化趋势。

动态数据

前提条件

  • 已开通DataWorks,并创建数据源。

    说明

    公开数据集支持通过MaxCompute、Hologres和EMR Spark进行分析,创建其中任意一个数据源即可。

  • DataWorks绑定的Serverless资源组与MaxCompute、Hologres或EMR Spark数据源之间的网络连通性正常,详情可参见网络连通

体验数据集

  1. 登录DataWorks控制台。点击左侧导航栏的大数据体验 > 公共数据集,进入公共数据集页面。

    本文以阿里电商数据集为例,单击右侧的开始分析,选择已创建的数据源,如MaxCompute。

    image

  2. DataWorks将自动进入数据分析模块,并自动填写查询SQL,在右上角切换已绑定的MaxCompute数据源后,再单击运行

    image

  3. 在查询结果中查看图表结果。

    image

说明

您还可以体验数据分析模块的更多功能,如增强分析、数据洞察等,具体请参见数据分析概述

分享数据集

您可以在公开数据集页面,通过钉钉将数据集分享给其他用户。

image

后续操作

您可在导入目标公开数据集至DataWorks数据分析模块后,在数据分析模块基于公开数据集创建数据卡片和数据报告,并将报告一键分享给您的朋友。具体操作,请参见:增强分析(卡片和报告)

相关参考

使用公开数据集的更多详细步骤,请参见大数据AI公共数据集分析