阿里云首页 工业大脑开放平台

相对熵

功能说明

相对熵组件用于计算给定概率值分布的熵。给定单个变量,计算数据的熵;给定两个变量,计算数据的相对熵。

计算逻辑原理

  • 信息量:一条信息的信息量大小和它的不确定性有很大的关系。如果需要很多外部信息才能确定,我们就称这句话的信息量比较大。比如你听到“云南西双版纳下雪了”,那你需要去看天气预报、问当地人等等查证(因为云南西双版纳从没下过雪)。相反,如果和你说“人一天要吃三顿饭”,那这条信息的信息量就很小,因为这条信息的确定性很高。

    那我们就能将事件下载 (1)的信息量定义如下(p代表概率):下载 (2)

  • 熵:信息量是对于单个事件来说的,但是实际情况一件事有很多种发生的可能,比如掷骰子有可能出现6种情况,明天的天气可能晴、多云或者下雨等等。熵是表示随机变量不确定的度量,是对所有可能发生的事件产生的信息量的期望。公式如下:下载 (3)

  • 相对熵:相对熵又称KL散度/信息增益。用于衡量一个分布相对于另一个分布的差异性,其值越小,表示两个分布的差异越小。

    离散型变量计算公式为:下载 (4)

    从公式可以看出,KL散度是非对称的,如下图所示。当我们有一个分布p,需要用q来近似它时,可以选择最小化下载 (5)下载 (6) ,其效果不同。最小化下载 (5) ,选择一个q使得它在p具有高概率的地方具有高概率,p有多个峰的话将这些峰模糊到一起;最小化下载 (6) ,选择一个q使得p具有低概率的地方具有低概率,p有多个峰并且间隔很宽时,选择单个峰,以避免将概率质量放置在p的多个峰之间的低概率区中。
    p1

流程使用说明

完成输入输出配置和参数配置。

类型说明

参数名

输入数据类型

输出数据类型

数据源类型

p

整数或浮点数

说明

若存在非数值数据,则会抛出异常

浮点数

IGate测点

q

整数或浮点数

说明

若存在非数值数据,则会抛出异常

浮点数

IGate测点

参数说明

IN端口

参数名

参数描述

IN

p

真实分布的数据。若p和q都配置,则计算p和q的相对熵;若只配置p,则计算p的熵。

必填。

q

理论分布的数据。

非必填。

OUT端口

参数名

参数描述

OUT

entropy

若p和q都配置,表示p和q的相对熵;若只配置p,则表示q的熵。

其他参数

参数名

参数描述

参数默认值

参数范围

采样时长

读取历史IGate数据时长,单位:秒。

必填。

60

[1,99999999]