全部产品
业务实时监控服务 ARMS

3-2:创建数据集

更新时间:2017-09-14 15:10:48   分享:   

数据集定义了监控任务中采集日志的预聚合方式和持久化存储。在 ARMS 中通过简单的交互,就可以获得 ARMS 系统针对多维数据分析优化的数据组织和存储方式。

创建数据集

数据集的创建和查询需要一个自定义的监控任务,具体的监控任务创建可以参考创建自定义任务

  1. 在控制台左侧菜单栏选择监控管理>监控任务管理,找到需要操作的监控任务并单击右侧的编辑选项,单击下一步直到进入数据集与报警配置页面。

    多维数据集1

  2. 在页面右下方单击添加数据集

    多维数据集2

  3. 添加数据集对话框,输入数据集名称,根据需要创建下钻数据集或者通用数据集。

    数据集

    输入项说明:

    • 筛选:定义什么样的数据将被用于数据集计算,不满足筛选条件的数据在数据集中将被过滤。

    • 指标: 一般为数字类型,是衡量目标的度量,类似于多维联机分析处理中的值。ARMS 的指标对应于实时计算后的 Count、Max、Sum、Count Distinct 等值。

    • 复合指标: 可以对数据集的指标结果进行加减乘除等运算。

    • 时间字段:日志切分对应的时间字段,是实时监控的最基础维度。

    • 维度:是衡量目标的思维角度。例如按班级统计学生人数,那么班级就是维度。用 SQL 语言表达就是 GROUP BY。ARMS 的维度分两种类型,通用类型和下钻类型,具体点击通用维度和下钻维度区别

    • 采样字段:是在这一分钟内,对某个字段数据的采样,便于在监控异常时根据当时的样本排查问题。
  4. 在监控任务列表页启动自定义监控。

完成以上步骤后,多维数据集就创建完成了。关于多维数据集的高级使用和查询,请参考监控结果管理目录下的数据集管理文档。

通用维度和下钻维度区别

通用维度适用于所有场景,但其中的维度是没有加速索引的(除非开启 ID 类维度,详细解释详见下文)。

下钻维度则针对更加特定场景,当维度之间存在层级关系,如省->市->区。那么下钻类维度会针对每层的查询都会加速。

通用维度

1、通用维度场景解析

以电商日志为例:2017-01-01 12:00:00|类目:男装|省份:浙江|市:杭州|区:西湖区|性别:男|身高:L|数量:5|总价:100|

切分后的字段为:时间,类目,省份,市,区,性别,身高,数量,总价,9 个字段。

我们需要根据商品的类目性别省份属性来分析该数据,则维度依次为类目性别省份,指标为单价和数量。预聚合之后数据为:

总价 数量 时间 性别 类目 省份
100 1 2017-01-01 12:00:00 男装 浙江
200 2 2017-01-01 12:00:00 食品 江苏
300 3 2017-01-01 12:00:00 男装 北京

当我们需要查看类目为男装的数据时,需要读取不同类目,不同性别和不同省份对应的所有数据,然后过滤出男装的数据。这里取出数据记录数是大于结果记录数的。

2、限制和优化方法

假设有 200 万的类目,我们还是查看类目为男装的数据,那么需要读取约 N 个 200 万的数据,然后过滤出男装数据。这里取出数据记录数远远大于结果记录数,且太多的读取记录直接影响到获取数据的速度。

对于这个问题,可以通过创建类目的索引来解决。

在通用维度类型的数据集中,ARMS 提供一种辅助维度,叫 ID 类维度。ID 类维度就相当于索引维度,在查询时候要给出明确的维度值,加速数据查询;而维度就是普通非索引维度,如本例最开始的性别,类目,省份维度。

3、维度和 ID 类维度区别

通用维度包含维度和 ID 类维度。在数据集的查询过程中,ID 类维度不能为空,而维度可为空。目前 ARMS 中最多包含一个 ID 类维度和七个维度。

  • 维度

    • 维度可独立使用或组合使用。比如某数据集有维度 A、B、C,您可以仅选择维度 A,B 或 C,也可以使用 BC 组合,或者 ABC 组合等查询。
  • ID 类维度

    • ID 类维度类似于对该维度创建索引,在查询时,通过指定 ID 类维度可以快速查询到数据结果。

    • 对于数据中不可枚举或者维度值个数较多的情况,建议使用 ID 类维度。

下钻维度

1、下钻维度场景解析

以系统监控领域的场景为例,系统日志中包含机房、分组和 IP 三个维度。用户需要从机房运行情况,下钻到某机房的分组,然后是分组的某一台机器进行数据查询。使用通用维度处理该问题,则存在查询数据量较大,导致查询延迟问题。下钻维度则用来解决以上这种固定的逐级查询的场景。

下钻维度对机房,分组,IP 创建多级索引,索引分别为机房(索引1), 机房-分组(索引2),机房-分组-IP(3)。当查看机房数据时,我们使用索引1;当查看某机房的分组数据时,使用索引2;当从该分组下钻到IP时,使用索引3.

下钻维度的使用场景还可以包括按照省、区维度进行业务统计;按照学校、年级、班级查询学生分布;按照厂商,品牌,类目统计售卖情况等。

2、下钻维度使用限制

  • ARMS 中最多可以设置三个下钻维度

  • 下钻维度之间有层级关系。比如,要查看第二个维度,必须要先选择第一个维度的属性。维度有点像一个树状结构。维度的定义需要规划,例如,第一维度可以是省,第二维度可以是市,第三个维度可以是区,指标数据则是市民消费情况。

  • 除非有特殊场景需求,两个完全不相关的维度最好不要放在一起定义,比如“地域”和“物品类型”。

  • ARMS 提供下钻功能,指从汇总数据深入到细节数据进行观察或新增维度。钻取的目的是改变维度层次,变换分析粒度。

本文导读目录
本文导读目录
以上内容是否对您有帮助?