使用数据集和变量

DataV-Note(智能分析)中的数据集分为数据库、文件数据集和查询结果集。数据库和文件数据集是用于进行查询分析的原始数据;结果数据集是基于原始数据通过指定条件筛选、处理生成的结果数据。变量则是分析单元输出结果的集合(例如,SQL查询、过滤器生成的结果、控件输出的参数等),可供SQL、Python等引用,构建联动查询。本文为您介绍如何使用数据集和变量。

前提条件

已创建项目,详情请参见创建项目

进入项目编辑页面

  1. 登录DataV-Note控制台

  2. 所有项目 > 全部页签,鼠标悬停至目标项目,单击编辑,进入该项目的编辑界面。

    在该页面,您可按需创建数据集使用变量

创建数据集

在项目编辑页面左侧导航栏,默认展示数据集页签,您可按需连接数据库、导入文件数据或生成查询结果集。

连接数据库

数据集 > 数据库目录,单击image图标,即可按照界面指引创建数据源连接。连接数据库后,可对相应数据进行查询分析

说明
  • 支持连接RDS MySQL、PostgreSQL、Hologres等多种类型的数据库,详情请参见数据源管理

  • 仅连通性校验成功的数据源会展示在数据库目录下,全量数据源列表请移至工作台界面的数据源目录查看。

导入文件数据

数据集 > 文件数据集目录,单击image图标,即可按照界面指引上传文件导入文件后,可对相应数据进行查询分析

说明
  • 支持上传CSVExcelJSON格式数据文件,且文件大小不超过500MB

  • 对于JSON文件,目前仅支持使用数组类型的文件内容。

  • 上传的文件名称必须在当前项目下唯一。

生成并使用查询结果集

查询结果集通常为分析报告最终需要展示的数据,也可作为图表、表格、地图、交叉表进行可视化分析的输入数据。

  • 生成查询结果集

    您需先基于数据库数据或文件数据进行查询分析,该结果将自动生成查询结果集。示例基于文件数据集生成查询结果集。image

    可按需更改查询结果集的类型,支持的类型如下:

    • 普通视图(View):依赖该视图的查询都将直接从源表(即文件数据集或数据库的原始数据)中获取相应数据。

    • 缓存视图(CachedView):该视图会将相关数据缓存至Note本地,用于加速查询,减轻源表压力。

    • Pandas的数据集(DataFrame):支持在Python分析单元中使用Pandas操作数据。

  • 基于查询结果集进行可视化分析

    可按需创建可视化分析单元,选择相应查询结果集进行可视化展示分析。示例通过堆叠条形图展示retail查询结果集的数据。

    image

管理数据集

在数据集列表,可执行如下管理操作:

  • 按需拷贝数据集表名、基于所选数据集创建SQL查询、删除数据集。

    重要

    仅支持删除文件数据集,删除操作不可逆,请谨慎执行。

    image

  • 查看数据库表详情。

    image

    • 结构:表的字段名称、数据类型等信息,不同表的参数字段存在差异。

    • DDL:表的数据定义语言,仅供参考。

    • 抽样数据:表的部分抽样数据,全量数据请在SQL分析单元中查看。

使用变量

在项目编辑页面左侧导航栏,单击image图标,进入变量页签。当前项目中所有分析单元的输出结果(例如,SQL查询、过滤器生成的查询结果集、控件输出的参数等)将作为变量呈现,可在SQL分析Python分析可视化分析中引用,构建联动查询。image