机器学习语法与函数
日志服务机器学习功能为您提供多种功能丰富的算法和便捷的调用方式,您可以在日志查询分析中通过分析语句和机器学习函数调用机器学习算法,分析某一字段或若干字段在一段时间内的特征。针对时序数据分析场景,日志服务提供了丰富的时序分析算法,可以帮助您快速解决时序预测、时序异常检测、序列分解、多时序聚类等场景问题,兼容SQL标准接口。大大降低了您使用算法的门槛,提高分析问题和解决问题的效率。
功能特点
支持单时序序列的多种平滑操作。
支持单时序序列的预测、异常检测、变点检测、折点检测、多周期估计算法。
支持单时序序列的分解操作。
支持多时序序列的多种聚类算法。
支持多字段(数值列、文本列)的模式挖掘。
使用限制
使用日志服务机器学习函数须遵循以下限制:
输入的时序数据必须是基于相同时间间隔的采样数据。
输入的时序数据中不能含有重复时间点的数据。
处理容量限制。
限制项
说明
时序数据处理的有效容量
上限为150,000个连续时间点数据。
若数量超过上限,请进行聚合操作或者降采样操作。
密度聚类算法的聚类容量
上限为5000条时序曲线,每条时序曲线的长度最大为1440个点。
层次聚类算法的聚类容量
上限为2000条时序曲线,每条时序曲线的长度最大为1440个点。
机器学习函数
类别 | 函数 | 说明 | |
时间序列 | ts_smooth_simple | 使用Holt Winters算法对时序数据平滑。 | |
ts_smooth_fir | 使用FIR滤波器对时序数据平滑。 | ||
ts_smooth_iir | 使用IIR滤波器对时序数据平滑。 | ||
ts_period_detect | 对时序数据进行分段周期估计。 | ||
ts_cp_detect | 寻找时序序列中具有不同统计特性的区间,区间端点即为变点。 | ||
ts_breakout_detect | 寻找时序序列中,某统计量发生陡升或陡降的点。 | ||
ts_find_peaks | 极大值检测函数用于在指定窗口中寻找序列的局部极大值。 | ||
ts_predicate_simple | 利用默认参数对时序数据进行建模,并进行简单的时序预测和异常点的检测。 | ||
ts_predicate_ar | 使用自回归模型对时序数据进行建模,并进行简单的时序预测和异常点的检测。 | ||
ts_predicate_arma | 使用移动自回归模型对时序数据进行建模,并进行简单的时序预测和异常点检测。 | ||
ts_predicate_arima | 使用带有差分的移动自回归模型对时序数据进行建模,并进行简单的时序预测和异常点检测。 | ||
ts_regression_predict | 针对含有周期性、趋势性的单时序序列,进行准确且长时序预测。 | ||
ts_decompose | 使用STL算法对时序数据进行序列分解。 | ||
ts_density_cluster | 使用密度聚类方法对多条时序数据进行聚类。 | ||
ts_hierarchical_cluster | 使用层次聚类方法对多条时序数据进行聚类。 | ||
ts_similar_instance | 查找到指定曲线名称的相似曲线。 | ||
kernel_density_estimation | 核密度估计函数采用平滑的峰值函数来拟合观察到的数据点,从而对真实的概率分布曲线进行模拟。 | ||
series_padding | 如果时间序列中存在数据缺失问题,可以使用时序补点函数补齐缺失的数据。 | ||
anomaly_compare | 用于比较某个观测对象在两个时间段的差异程度。 | ||
模式挖掘 | pattern_stat | 统计模式中的频繁模式,在给定的多属性字段样本中,挖掘出具有一定代表性的属性组合。 | |
pattern_diff | 在指定条件下找出导致两个集合差异的模式。 | ||
rca_kpi_search | 在时序指标发生异常时,根因分析函数可以快速分析出是哪些相关维度属性发生异常而导致监控指标发生异常。 | ||
ts_association_analysis | 针对系统中的多个观测指标,快速找出和某个指标项相关的指标名称。 | ||
ts_similar | 针对系统中的多个观测指标,快速找出和用户输入的时序序列相关的指标名称。 | ||
url_classify | URL请求分类函数会自动将您输入的URL请求路径进行归类打标签,并提供类别的正则表达式,帮助您更好地归类URL。 |