python 信息熵、条件熵、信息增益、信息增益率、基尼系数

三、python 实现import mathfrom collections import Counterdef Entropy(DataList):'''计算随机变量的熵'''counts = len(DataList)# 总数量counter = Counter(DataList) # 每个变量出现的次数prob = {i[0]:i[1]/counts for i in counter.ite

数据分析小鹏友

7893人浏览 · 2022-03-11 15:01:56

数据分析小鹏友 · 2022-03-11 15:01:56 发布

文章目录

一、熵（Entropy）
二、条件熵（Conditional Entropy）
三、信息增益（Information Gain）
- 3.1 定义
- 3.2 计算案例
四、信息增益率（Information Gain Ratio, IGR）
五、基尼系数（Gini coefficient）
- 5.1 定义
- 5.2 代码实现

一、熵（Entropy）

1.1 概念

熵，在信息论中是用来刻画信息混乱程度的一种度量。
最早源于热力学，后应广泛用于物理、化学、信息论等领域。1850年，德国物理学家鲁道夫·克劳修斯首次提出熵的概念，用来表示任何一种能量在空间中分布的均匀程度。1948年，Shannon在Bell System Technical Journal上发表文章“A Mathematical Theory of Communication”，将信息熵的概念引入信息论中。本文所说的熵就是Shannon熵，即信息熵，解决了对信息的量化度量问题。

1.2 定义

$-\displaystyle \sum_{i=1}^{n} p_i logp_i$
其中，

n 代表X的n种不同的离散取值；
$p_i$ 代表了集合D取值为i的概率（比例）；
log 为以2或者e为底的对数；
从定义中可以看出变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。

1.3 案例和代码

import math
from collections import Counter

def Entropy(DataList):
    '''
        计算随机变量 DataList 的熵
    '''
    counts = len(DataList)      # 总数量
    counter = Counter(DataList) # 每个变量出现的次数
    prob = {i[0]:i[1]/counts for i in counter.items()}      # 计算每个变量出现的比例 p
    H = - sum([i[1]*math.log2(i[1]) for i in prob.items()]) # 计算熵
    
    print("总数量：",counts)
    print("每个变量出现的次数：",counter)
    print("每个变量出现的比例：",prob)
    print("熵：",H)
    
    return H

if __name__ == "__main__":
    data_list_1 = [1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2, 3, 4, 5, 1, 2, 3, 4, 1, 2, 3, 4, 5 ]
    data_list_2 = [1,1,1,1,2,2,2,2]
    data_list_3 = [1,1,1,1,1,1,1,2]
    data_list_4 = [1,2,2,2,2,2,2,2]
    data_list_5 = [1,9,9,9,9,9,9,9]

    print("----------数据集1")
    HX1 = Entropy(data_list_1)
    print("----------数据集2")
    HX2 = Entropy(data_list_2)
    print("----------数据集3")
    HX3 = Entropy(data_list_3)
    print("----------数据集4")
    HX4 = Entropy(data_list_4)
    print("----------数据集5")
    HX5 = Entropy(data_list_5)

在这里插入图片描述
可以看出:

数据集1熵值大，说明1信息更混乱;
数据集2熵值为1.0，说明各类别占比均等时，熵值会等于1；
数据集3、4、5的熵值一样，说明信息熵只依赖出现的概率。

二、条件熵（Conditional Entropy）

2.1 概念

条件熵（Conditional Entropy）是在已知某一特征的条件下，度量目标变量的不确定性。它用于衡量在给定特征的信息后，目标变量的信息熵的期望值。条件熵是信息论中的重要概念，在构建决策树时，用于计算信息增益，从而帮助选择最佳分裂特征。

2.2 定义

定义在给定特征 A 的条件下，目标变量 Y 的信息熵为条件熵 $H (Y ∣ A)$ ：
$H(Y|A)=\sum_{v\in Values(A)} \dfrac{|D_{v}|}{|D|}H(D_{v})$
其中：

$Va l u es (A)$ 是特征 $A$ 的所有可能取值。
$D_{v}$ 是特征 A 取值为 $v$ 的子集。
$\dfrac{|D_{v}|}{|D|}$ 是子集 $D_{v}$ 在数据集 D中的权重。
$H(D_{v})$ 是子集 $D_{v}$ 的信息熵。

2.3 计算案例

假设我们有一个数据集D，其中包含两个类别（正类和负类）和一个特征X：

A	Y
A1	正类
A1	正类
A1	正类
A1	负类
A2	正类
A2	正类
A2	负类
A2	负类
A2	正类
A2	负类

步骤 1：计算整个数据集D的信息熵 $H (D)$
步骤 2：计算算特征X的条件熵

假设特征 AAA 有两个取值$ {A1, A2}$，我们需要计算每个子集的熵并加权平均：

子集 $D_{A1}$ ，即 $A=A_{1}$ 条件下的数据集、熵为:

A	Y
A1	正类
A1	正类
A1	正类
A1	负类

在这里插入图片描述
子集 $D_{A2}$ ，即 $A=A_{2}$ 条件下的数据集、熵为:

A	Y
A2	正类
A2	正类
A2	负类
A2	负类
A2	正类
A2	负类

在这里插入图片描述

步骤 3：计算条件熵 $H (Y ∣ A)$
条件熵的意义

条件熵 $H (Y ∣ A)$ 表示在知道特征 A的情况下，目标变量 Y的不确定性。条件熵越小，说明特征 A 对目标变量 Y的解释能力越强。因此，在构建决策树时，我们选择条件熵最小的特征进行分裂，从而最大化信息增益。

2.4 代码实现

import math
import pandas as pd
from collections import Counter

def Entropy(DataList):
    '''
        计算随机变量的熵
    '''
    counts = len(DataList)      # 总数量
    counter = Counter(DataList) # 每个变量出现的次数
    prob = {i[0]:i[1]/counts for i in counter.items()}      # 计算每个变量的 p
    H = - sum([i[1]*math.log2(i[1]) for i in prob.items()]) # 计算熵
    
    return H

if __name__ == "__main__":
    # 数据
    data = {
        'A': ['A1', 'A1', 'A1', 'A1', 'A2', 'A2', 'A2', 'A2', 'A2', 'A2'],
        'target': ['正类', '正类', '正类', '负类', '正类', '正类', '负类', '负类', '正类', '负类']
    }
    # 创建 DataFrame
    df = pd.DataFrame(data)
    
    X = df['A']
    Y = df['target']
    
    XY = list(zip(X,Y))
    HX = Entropy(X)   # 随机变量 X 的熵
    HXY = Entropy(XY) # 联合熵 XY
    HY_X = HXY - HX   # 条件熵  Y｜X
    
    print("条件熵：",HY_X)

三、信息增益（Information Gain）

3.1 定义

定义为数据集 D 在特征 A上的熵减少量：
$G ain (D, A) = H (D) - H (D ∣ A)$
其中：

$H (D)$ 为数据集D的熵（即目标变量Y的熵）；
$H (D ∣ A)$ 为在特征A条件下，目标变量Y的条件熵

$G ain (D, A)$ 值越大，说明数据集 D 在特征 A上的熵减少量越大，进一步说明特征A对于数据集D的重要性越高。

所以，在构建决策树时，选择信息增益最大的特征作为分裂特征。

3.2 计算案例

继续上文条件熵示例。

数据集 D的信息熵 $H (D) \approx 0.971$ ，特征 A 的条件熵 $H (D ∣ A) \approx 0.924$ ，则信息增益计算如下：

$G ain (D, A) = 0.971 - 0.924 \approx 0.047$

四、信息增益率（Information Gain Ratio, IGR）

4.1 定义

信息增益虽然直观，但在处理具有许多取值的特征时，会倾向于选择取值多的特征，因为它们通常会带来较大的信息增益。为了避免这种偏差，引入了信息增益率。
定义如下：
$Gain\_ratio(D,A) = \dfrac{Gain(D,A)}{H(A)}$
其中， $G ain (D, A)$ 为特征A在数据集D下的信息增益；

$H (A)$ 为特征A的熵值.

4.2 计算案例

继续上文条件熵示例。

数据集 D的信息熵 $H (D) \approx 0.971$ ，特征 A 的条件熵 $H (D ∣ A) \approx 0.924$ ，信息增益 $G ain (D, A) = 0.971 - 0.924 \approx 0.047$ ，信息增益率
$Gain\_ratio(D,A) = \dfrac{Gain(D,A)}{H(A)} = \dfrac{0.047}{0.971}$

4.3 总结

信息增益：度量某个特征对结果分类的不确定性减少的程度。
信息增益率：通过规范化信息增益来减轻对取值多的特征的偏好，选择信息增益率最高的特征来进行决策树的划分。

在实际应用中，决策树算法（如 C4.5）使用信息增益率来选择最优的分割特征，避免信息增益在处理取值较多特征时的偏差问题。

五、基尼系数（Gini coefficient）

Gini 系数（Gini coefficient），也称为基尼系数或基尼指数，是衡量不平等或分布不均衡的一种常用方法。在决策树中，Gini 系数常被用来衡量节点的不纯度，帮助选择最佳的分裂点。

5.1 定义

对于一个包含多个类别的数据集，假设有 $K$ 个类别，记为$ {1,2,…,K}$。设 $p_{i}$ 表示类别 i在数据集中的比例（即频率），则 Gini 系数 $G ini (p)$ 定义如下：
$Gini(p)=1-\sum_{i=1}^{K}p_{i}^{2}$
其中， $p_{i}$ 是类别 i 的频率。Gini 系数的取值范围是 $0 \leq G ini (p) \leq 0.5$ ;

所有样本属于同一类别时，Gini 系数达到最小值 0，表示数据集的纯度最高；

样本均匀分布在各个类别时，Gini 系数达到最大值 0.5，表示数据集的纯度最低。

5.2 代码实现

def gini_index(arr):
    '''' 计算基尼系数 '''
    # 如果为空，返回0
    if len(arr) == 0:
        return 0
    
    # 计算每个类别的频率
    unique_values, counts = np.unique(arr, return_counts=True)
    prob = counts / len(arr)
    
    # 计算基尼指数
    gini = 1 - np.sum(prob ** 2)
    
    return gini

技术共进，成长同行——讯飞AI开发者社区

更多推荐

YOLOv8【卷积创新篇·第8节】RegNet正则化网络设计空间，你不会不懂的吧！

讯飞AI开发者社区

基于PyTorch的农作物病虫害预测模型部署实战

随着农业科技的不断发展，利用人工智能和深度学习来提高农作物生产力已经成为一个重要方向。在众多应用中，农作物病虫害预测模型的部署无疑是农民和农业工作者最为关心的话题之一。随着环境的变化和气候异常的加剧，农作物病虫害的发生愈发复杂，因此，如何通过科学的方法预测并防治这些病虫害成为了提高农业产量、确保粮食安全的关键。本文将基于PyTorch框架，通过具体的实践案例，介绍如何搭建和部署一个农作物病虫害预测