深度学习中，偏置（bias）在什么情况可以不要？

1、深度学习偏置的作用？x1w1 + x2w2 +…+xnwn > T（T为一个阈值），而T越大，想激活这个感知器的难度越大，人工选择一个阈值并不是一个好的方法，因为样本那么多，我不可能手动选择一个阈值，使得模型整体表现最佳，那么我们可以使得T变成可学习的，这样一来，T会自动学习到一个数，使得模型的整体表现最佳。当把T移动到左边，它就成了偏置，x1w1 + x2w2 +…+xnwn- T&g

Doctor_Wu_

4405人浏览 · 2020-11-19 17:45:02

Doctor_Wu_ · 2020-11-19 17:45:02 发布

1、深度学习偏置的作用？

x1w1 + x2w2 +…+xnwn > T（T为一个阈值），而T越大，想激活这个感知器的难度越大，人工选择一个阈值并不是一个好的方法，因为样本那么多，我不可能手动选择一个阈值，使得模型整体表现最佳，那么我们可以使得T变成可学习的，这样一来，T会自动学习到一个数，使得模型的整体表现最佳。当把T移动到左边，它就成了偏置，x1w1 + x2w2 +…+xnwn - T> 0 ----->x*w +b > 0，总之，偏置的大小控制着激活这个感知器的难易程度。

2、在某些情况下，我们是否可以不要偏置呢？

1）bias被设置False，也就是没有用到偏置。

def conv_bn(inp, oup, stride):
    return nn.Sequential(
        nn.Conv2d(inp, oup, 3, stride, 1, bias=False),
        nn.BatchNorm2d(oup),
        nn.ReLU(inplace=True)
    )

2）bias被设置为True，用到了偏置。

def conv3x3(in_channels, out_channels, stride=1, 
            padding=1, bias=True, groups=1):    
    """3x3 convolution with padding
    """
    return nn.Conv2d(
        in_channels, 
        out_channels, 
        kernel_size=3, 
        stride=stride,
        padding=padding,
        bias=bias,
        groups=groups)

这两份的代码区别在于卷积后面有没有接BN操作（后面我会有博客讲归一化操作，这里就不展开了）

BN操作，里面有一个关键操作：
在这里插入图片描述
其中x1 = x0 * w0 + b0，而E[x1] = E[x0*w0] + b0，所以对于分子而言，加没加偏置，没有影响；而对于下面分母而言，因为Var是方差操作，所以也没有影响。所以，卷积之后，如果要接BN操作，最好是不设置偏置，因为不起作用，而且占显卡内存。

技术共进，成长同行——讯飞AI开发者社区

更多推荐

走进大数据领域的机器学习应用

大数据与机器学习的结合，是当代人工智能革命的核心驱动力。本文从第一性原理出发，系统解析两者的协同逻辑：大数据为机器学习提供了“泛化能力的燃料”，而机器学习则是大数据“价值变现的引擎”。大数据的4V特性如何重塑机器学习的边界？分布式训练如何解决“大模型+大数据”的计算瓶颈？特征工程为何是大数据机器学习的“黄金环节”？实时推理如何应对高并发、低延迟的业务需求？算法偏见、数据隐私等伦理问题如何破局？