配置高斯混合模型训练的参数-人工智能平台 PAI-阿里云

文档备案控制台

高斯混合模型（Gaussian Mixture Model）表示在总体分布中包含K个高斯子分布的概率模型。您可以使用高斯混合模型训练组件实现模型分类。本文为您介绍高斯混合模型训练组件的配置方法。

使用限制

支持的计算引擎为MaxCompute、Flink或DLC。

可视化配置组件参数

Designer支持通过可视化的方式，配置组件参数。

页签	参数	描述
字段设置	向量列名	向量列对应的列名。
参数设置	收敛阈值	当两轮迭代的中心点距离小于收敛阈值时，算法收敛。默认为1.0E~4。
	聚类中心点数量	聚类中心点的数量，默认为2。
	最大迭代步数	最大迭代步数，默认为100。
	随机数种子	正整数，默认为0。
执行调优	节点个数	与单个节点内存大小参数配对使用。取值为[1, 9999]的正整数。具体配置方法，详情请参见附录：如何预估资源的使用量。
执行调优	单个节点内存大小，单位M	取值范围为1024 MB~64*1024 MB，具体配置方法，详情请参见附录：如何预估资源的使用量。

附录：如何预估资源的使用量

您可以参考以下示例，来预估资源的使用量。

如何预估每个节点的内存大小？
假设聚类中心点数量为K，输入数据的向量维度为M，则每个节点需要配置的内存大小为：M × M × K × 8 × 2 ×12，即M × M × K × 8 × 2 × 12 ÷ 1024 ÷ 1024 MB。通常每个节点的内存配置为8 GB。
如何预估节点的个数？
建议按照输入数据的大小配置。例如：输入数据大小为X GB，则建议使用5X个节点。如果资源不足，可以适当降低节点数量。由于存在通信开销，随着节点数量的增加，分布式训练任务速度会先变快，后变慢。如果您观测到训练任务随着节点数量增加之后，速度变慢，则应该停止增加节点数量。
该算法组件支持的数据量大小？
建议向量维度小于200。

上一篇：DBSCAN预测下一篇：高斯混合模型预测

该文章对您有帮助吗？