全部产品
存储与CDN 数据库 域名与网站(万网) 应用服务 数加·人工智能 数加·大数据基础服务 互联网中间件 视频服务 开发者工具 解决方案 物联网 钉钉智能硬件
业务实时监控服务 ARMS

3-2:创建数据集

更新时间:2018-01-22 00:28:59

数据集定义了监控任务中采集日志的预聚合方式和持久化存储。在 ARMS 中通过简单的交互,就可以获得 ARMS 系统针对多维数据分析优化后的数据组织和存储方式。

创建数据集

前提条件

创建和设置报警控件需要一个自定义的监控任务。监控任务的创建方法请参考步骤 1 步骤 2

  1. 在控制台左侧菜单栏中选择自定义监控 > 监控任务管理

  2. 在实例列表页面找到上一步创建的监控任务,单击右侧的编辑按钮,然后单击下一步,直到进入数据集与报警配置页面。

  3. 数据集设置栏单击添加数据集

    添加数据集

  4. 添加数据集对话框,输入数据集名称,根据需要创建下钻数据集或通用数据集。

    数据集

    • 筛选:定义什么样的数据将被用于数据集计算,不满足筛选条件的数据在数据集中将被过滤。

      注意:请仔细选择筛选规则,同时满足下述规则对应的关系,满足下述一条规则对应的关系。

    • 指标: 一般为数字类型,是衡量目标的度量,类似于多维联机分析处理中的值。ARMS 的指标对应于实时计算后的 Count、Max、Sum、Count Distinct 等值。

    • 复合指标: 可以对数据集的指标结果进行加减乘除等运算。

    • 时间字段:日志切分对应的时间字段,是实时监控的最基础维度。

    • 维度:是衡量目标的思维角度。例如按班级统计学生人数,那么班级就是维度。用 SQL 语言表达就是 GROUP BY。ARMS 的维度分通用类型和下钻类型,详情请参考通用维度和下钻维度的区别

    • 采样字段:是在这一分钟内,对某个字段数据的采样,便于在监控异常时根据当时的样本排查问题。
  5. 在监控任务实例列表页面启动自定义监控。

完成以上步骤后,多维数据集就创建好了。关于多维数据集的高级功能使用,请参考数据集管理

通用维度和下钻维度区别

通用维度:适用于所有场景,但其中的维度是没有加速索引的(除非开启 ID 类维度,详细解释参见下文)。

下钻维度:针对特定场景,当维度之间存在层级关系,如省 > 市 > 区,那么下钻类维度会针对每层的查询加速。

通用维度

通用维度场景解析

以电商日志为例:2017-01-01 12:00:00|类目:男装|省份:浙江|市:杭州|区:西湖区|性别:男|身高:L|数量:5|总价:100|

切分后的字段为:时间,类目,省份,市,区,性别,身高,数量,总价。

我们需要根据商品的类目性别省份属性来分析该数据,则维度依次为类目性别省份,指标为单价和数量。预聚合之后数据为:

总价 数量 时间 性别 类目 省份
100 1 2017-01-01 12:00:00 男装 浙江
200 2 2017-01-01 12:00:00 食品 江苏
300 3 2017-01-01 12:00:00 男装 北京

当我们需要查看类目为男装的数据时,需要读取不同类目,不同性别和不同省份对应的所有数据,然后过滤出男装的数据。这里取出数据记录数是大于结果记录数的。

限制和优化方法

假设有 200 万的类目,我们还是查看类目为男装的数据,那么需要读取约 N 个 200 万的数据,然后过滤出男装数据。这里取出数据记录数远远大于结果记录数,且太多的读取记录直接影响到获取数据的速度。

此时可以通过创建类目的索引来解决。

在通用维度类型的数据集中,ARMS 提供一种辅助维度,叫 ID 类维度。ID 类维度就相当于索引维度,在查询时要给出明确的维度值,加速数据查询;而维度就是普通非索引维度,如本例最开始的性别、类目、省份维度。

维度和 ID 类维度区别

通用维度包含维度和 ID 类维度。在数据集的查询过程中,ID 类维度不能为空,而维度可为空。目前 ARMS 中最多包含一个 ID 类维度和七个维度。

  • 维度

    • 维度可独立使用或组合使用。例如某数据集有维度 A、B、C,您可以仅选择维度 A、B 或 C,也可以使用 BC 组合,或者 ABC 组合等查询。
  • ID 类维度

    • ID 类维度类似于对该维度创建索引,在查询时,通过指定 ID 类维度可以快速查询到数据结果。

    • 对于数据中不可枚举或者维度值个数较多的情况,建议使用 ID 类维度。

下钻维度

下钻维度场景解析

以系统监控领域的场景为例,系统日志中包含机房、分组和 IP 三个维度。用户需要从机房运行情况,下钻到某机房的分组,然后是分组的某一台机器进行数据查询。如果使用通用维度处理该问题,则存在查询数据量较大导致查询延迟的问题。下钻维度可用来解决以上这种固定的逐级查询场景。

下钻维度对机房、分组、IP 创建多级索引,索引分别为机房(索引 1), 机房-分组(索引 2),机房-分组-IP(索引 3)。查看机房数据时使用索引 1,查看某机房的分组数据时使用索引 2,从该分组下钻到 IP 时使用索引 3。

下钻维度的使用场景还可以包括按照省、区维度进行业务统计,按照学校、年级、班级查询学生分布,或按照厂商、品牌、类目统计售卖情况等。

下钻维度使用限制

  • ARMS 中最多可以设置三个下钻维度

  • 下钻维度之间有层级关系。例如,要查看第二个维度,必须先选择第一个维度的属性。维度类似于一个树状结构。维度的定义需要规划,例如,第一维度可以是省,第二维度可以是市,第三个维度可以是区,指标数据则是市民消费情况。

  • 除非有特殊场景需求,两个完全不相关的维度最好不要一同定义,比如“地域”和“物品类型”。

  • ARMS 提供下钻功能,可以从汇总数据深入到细节数据进行观察或新增维度。钻取的目的是改变维度层次、变换分析粒度。

本文导读目录