DataV-Note(智能分析)中的数据集分为数据库、文件数据集和查询结果集。数据库和文件数据集是用于进行查询分析的原始数据;结果数据集是基于原始数据通过指定条件筛选、处理生成的结果数据。变量则是分析单元输出结果的集合(例如,SQL查询、过滤器生成的结果、控件输出的参数等),可供SQL、Python等引用,构建联动查询。本文为您介绍如何使用数据集和变量。
前提条件
已创建项目,详情请参见创建项目。
进入项目编辑页面
在
页签,鼠标悬停至目标项目,单击编辑,进入该项目的编辑界面。
创建数据集
在项目编辑页面左侧导航栏,默认展示数据集页签,您可按需连接数据库、导入文件数据或生成查询结果集。
连接数据库
在查询分析。
目录,单击图标,即可按照界面指引创建数据源连接。连接数据库后,可对相应数据进行导入文件数据
在查询分析。
目录,单击图标,即可按照界面指引上传文件。导入文件后,可对相应数据进行支持上传
CSV
、Excel
、JSON
格式数据文件,且文件大小不超过500MB
。对于
JSON
文件,目前仅支持使用数组类型的文件内容。上传的文件名称必须在当前项目下唯一。
生成并使用查询结果集
查询结果集通常为分析报告最终需要展示的数据,也可作为图表、表格、地图、交叉表进行可视化分析的输入数据。
生成查询结果集
您需先基于数据库数据或文件数据进行查询分析,该结果将自动生成查询结果集。示例基于文件数据集生成查询结果集。
可按需更改查询结果集的类型,支持的类型如下:
普通视图(View):依赖该视图的查询都将直接从源表(即文件数据集或数据库的原始数据)中获取相应数据。
缓存视图(CachedView):该视图会将相关数据缓存至Note本地,用于加速查询,减轻源表压力。
Pandas的数据集(DataFrame):支持在Python分析单元中使用Pandas操作数据。
基于查询结果集进行可视化分析
可按需创建可视化分析单元,选择相应查询结果集进行可视化展示分析。示例通过堆叠条形图展示
retail
查询结果集的数据。
管理数据集
在数据集列表,可执行如下管理操作:
按需拷贝数据集表名、基于所选数据集创建SQL查询、删除数据集。
重要仅支持删除文件数据集,删除操作不可逆,请谨慎执行。
查看数据库表详情。
结构:表的字段名称、数据类型等信息,不同表的参数字段存在差异。
DDL:表的数据定义语言,仅供参考。
抽样数据:表的部分抽样数据,全量数据请在SQL分析单元中查看。
使用变量
在项目编辑页面左侧导航栏,单击图标,进入变量页签。当前项目中所有分析单元的输出结果(例如,SQL查询、过滤器生成的查询结果集、控件输出的参数等)将作为变量呈现,可在SQL分析、Python分析、可视化分析中引用,构建联动查询。