机器学习函数功能与使用说明-日志服务-阿里云

日志服务机器学习功能为您提供多种功能丰富的算法和便捷的调用方式，您可以在日志查询分析中通过分析语句和机器学习函数调用机器学习算法，分析某一字段或若干字段在一段时间内的特征。针对时序数据分析场景，日志服务提供了丰富的时序分析算法，可以帮助您快速解决时序预测、时序异常检测、序列分解、多时序聚类等场景问题，兼容SQL标准接口。大大降低了您使用算法的门槛，提高分析问题和解决问题的效率。

功能特点

支持单时序序列的多种平滑操作。
支持单时序序列的预测、异常检测、变点检测、折点检测、多周期估计算法。
支持单时序序列的分解操作。
支持多时序序列的多种聚类算法。
支持多字段（数值列、文本列）的模式挖掘。

使用限制

使用日志服务机器学习函数须遵循以下限制：

输入的时序数据必须是基于相同时间间隔的采样数据。
输入的时序数据中不能含有重复时间点的数据。

处理容量限制。

限制项	说明
时序数据处理的有效容量	上限为150,000个连续时间点数据。若数量超过上限，请进行聚合操作或者降采样操作。
密度聚类算法的聚类容量	上限为5000条时序曲线，每条时序曲线的长度最大为1440个点。
层次聚类算法的聚类容量	上限为2000条时序曲线，每条时序曲线的长度最大为1440个点。

机器学习函数

类别		函数	说明
时间序列	平滑函数	ts_smooth_simple	使用Holt Winters算法对时序数据平滑。
		ts_smooth_fir	使用FIR滤波器对时序数据平滑。
		ts_smooth_iir	使用IIR滤波器对时序数据平滑。
	多周期估计函数	ts_period_detect	对时序数据进行分段周期估计。
	变点检测函数	ts_cp_detect	寻找时序序列中具有不同统计特性的区间，区间端点即为变点。
	变点检测函数	ts_breakout_detect	寻找时序序列中，某统计量发生陡升或陡降的点。
	极大值检测函数	ts_find_peaks	极大值检测函数用于在指定窗口中寻找序列的局部极大值。
	预测与异常检测函数	ts_predicate_simple	利用默认参数对时序数据进行建模，并进行简单的时序预测和异常点的检测。
		ts_predicate_ar	使用自回归模型对时序数据进行建模，并进行简单的时序预测和异常点的检测。
		ts_predicate_arma	使用移动自回归模型对时序数据进行建模，并进行简单的时序预测和异常点检测。
		ts_predicate_arima	使用带有差分的移动自回归模型对时序数据进行建模，并进行简单的时序预测和异常点检测。
		ts_regression_predict	针对含有周期性、趋势性的单时序序列，进行准确且长时序预测。
	序列分解函数	ts_decompose	使用STL算法对时序数据进行序列分解。
	核密度估计函数	kernel_density_estimation	核密度估计函数采用平滑的峰值函数来拟合观察到的数据点，从而对真实的概率分布曲线进行模拟。
模式挖掘	频繁模式统计	pattern_stat	统计模式中的频繁模式，在给定的多属性字段样本中，挖掘出具有一定代表性的属性组合。
	差异模式统计	pattern_diff	在指定条件下找出导致两个集合差异的模式。
	根因分析函数	rca_kpi_search	在时序指标发生异常时，根因分析函数可以快速分析出是哪些相关维度属性发生异常而导致监控指标发生异常。
	相关性分析函数	ts_association_analysis	针对系统中的多个观测指标，快速找出和某个指标项相关的指标名称。
	相关性分析函数	ts_similar	针对系统中的多个观测指标，快速找出和用户输入的时序序列相关的指标名称。
	URL请求分类函数	url_classify	URL请求分类函数会自动将您输入的URL请求路径进行归类打标签，并提供类别的正则表达式，帮助您更好地归类URL。