【深度学习】二分类情况下Softmax函数与Sigmoid函数的等价性 / Softmax函数：Sigmoid函数从二分类到多分类的推广

本文说明了二分类情况下Softmax函数与Sigmoid函数的等价性，或者说：Softmax函数可以认为是Sigmoid函数从二分类到多分类的推广。

烟锁池塘柳0

1089人浏览 · 2025-02-16 15:48:27

烟锁池塘柳0 · 2025-02-16 15:48:27 发布

Softmax函数：Sigmoid函数从二分类到多分类的推广

文章目录

Softmax函数：Sigmoid函数从二分类到多分类的推广
1. Sigmoid与Softmax的关系
2. 二分类场景下的等价性
3. 核心差异对比
4. 多分类实现示例（Python）
5. 应用场景选择建议

1. Sigmoid与Softmax的关系

Softmax函数可以看作是二分类函数Sigmoid在多分类问题上的推广。当处理二分类问题时，两者在数学表达上是等价的。

Sigmoid函数表达式：
$\sigma(z) = \frac{1}{1+e^{-z}}$

Softmax函数表达式（K分类场景）：
$\text{Softmax}(z_i) = \frac{e^{z_i}}{\sum_{j=1}^K e^{z_j}}$

2. 二分类场景下的等价性

当K=2时，Softmax可以简化为Sigmoid形式：
$\text{Softmax}(z_1) = \frac{e^{z_1}}{e^{z_1}+e^{z_2}} = \frac{1}{1+e^{-(z_1-z_2)}}$
此时相当于对特征差值 $z_1-z_2$ 应用Sigmoid函数。

3. 核心差异对比

特性	Sigmoid	Softmax
输出范围	(0,1)	(0,1)且概率和为1
适用场景	二分类/多标签分类	互斥多分类
梯度特性	存在梯度消失风险	更稳定的梯度传播
输出独立性	各节点独立计算	输出值相互依赖

4. 多分类实现示例（Python）

import torch.nn as nn

# 定义三层神经网络
class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.fc = nn.Sequential(
            nn.Linear(784, 256),
            nn.ReLU(),
            nn.Linear(256, 10)  # 输出层节点数=类别数
        )
    
    def forward(self, x):
        return self.fc(x)

# 使用交叉熵损失函数（内置Softmax）
criterion = nn.CrossEntropyLoss()

5. 应用场景选择建议

✅ 使用Softmax：手写数字识别（MNIST）、图像分类等互斥类别场景
✅ 使用Sigmoid：多标签分类
⚠️ 二分类时优先使用Sigmoid（计算更简单），但Softmax同样有效

技术共进，成长同行——讯飞AI开发者社区

更多推荐

（2025年最新）人工智能学习指南：零基础入门到精通，超详细，一篇搞定所有基础知识！

讯飞AI开发者社区

如何使用Gradio快速搭建AI演示

Gradio支持对标题、描述、主题，甚至示例进行自定义设置。目前，应用程序会展示例句，用户点击这些例句即可立即开展测试。Gradio革新了开发者分享机器学习模型的方式。以往需耗时数小时编码才能达成的任务，如今借助Gradio仅需几分钟便可完成。开发者只需编写模型代码，并将其与Gradio进行连接，即可迅速获得一个可运行的演示程序以及与之对应的可分享链接。对于学习人工智能的学生、分享研究成果的科研人