【科研小小白】神经网络参数（weight权重、bias偏移量）初始化方法（未完待续）

在神经网络中，参数的初始化和处理是非常重要的步骤，因为它们对模型的训练速度和性能有着直接的影响。：权重的初始化通常需要遵循一些特定的分布，如均匀分布、正态分布或者是特定的常数。：权重归一化是一种常用的参数处理方法，可以帮助提高模型的训练速度和性能。：在神经网络的训练过程中，权重的更新是通过反向传播和优化算法来实现的。PyTorch的模块提供了一系列的优化算法，如SGD、Adam和RMSProp等。

imblackcat

1781人浏览 · 2023-08-03 11:21:31

imblackcat · 2023-08-03 11:21:31 发布

在神经网络中，参数的初始化和处理是非常重要的步骤，因为它们对模型的训练速度和性能有着直接的影响。以下是一些常用的参数处理步骤和方法，以及相应的PyTorch函数：

权重初始化：权重的初始化通常需要遵循一些特定的分布，如均匀分布、正态分布或者是特定的常数。PyTorch提供了一些函数来帮助进行权重初始化：
- torch.nn.init.uniform_：用于从均匀分布中抽取值来填充输入的张量。
- torch.nn.init.normal_：用于从正态分布中抽取值来填充输入的张量。
- torch.nn.init.constant_：用于用特定的常数值填充输入的张量。
权重归一化：权重归一化是一种常用的参数处理方法，可以帮助提高模型的训练速度和性能。PyTorch提供了一些函数来帮助进行权重归一化：
- torch.nn.init.xavier_uniform_和torch.nn.init.xavier_normal_：这两个函数实现了Xavier初始化，也被称为Glorot初始化，它根据输入和输出神经元的数量来决定权重的分布范围。
- torch.nn.init.kaiming_uniform_和torch.nn.init.kaiming_normal_：这两个函数实现了Kaiming初始化，也被称为He初始化，它根据输入神经元的数量来决定权重的分布范围。
权重更新：在神经网络的训练过程中，权重的更新是通过反向传播和优化算法来实现的。PyTorch的torch.optim模块提供了一系列的优化算法，如SGD、Adam和RMSProp等。
权重正则化：权重正则化是一种防止过拟合的技术，常见的方法有L1正则化和L2正则化。在PyTorch中，可以在优化器中设置weight_decay参数来实现权重正则化。

以上就是神经网络中的一些常用的参数处理步骤和方法，以及相应的PyTorch函数。

可以用于神经网络参数初始化的函数：

nn.init.normal_(m.weight, mean=0, std=0.01)
nn.init.zeros_(m.bias)

nn.init.zeros_函数

nn.init.zeros_(m.bias)

nn.init.zeros_是另一个初始化方法，用于将张量初始化为常数值。这段代码的意思是将m（一个神经网络）中的bias偏移量参数设置为0

nn.init.uniform_函数

nn.init.uniform_(m.weight, -10, 10)

nn.init.uniform_是另一个初始化方法，用于将张量初始化为常数值。

nn.init.constant_函数

nn.init.constant_(m.weight, 1)

nn.init.constant_是另一个初始化方法，用于将张量初始化为常数值。这句代码的意思是，将m（一个神经网络）中的weight权重参数设置为1

xavier_uniform_函数

nn.init.xavier_uniform_(m.weight)

Xavier 初始化是一种用于神经网络权重初始化的方法，旨在解决梯度消失或梯度爆炸等问题，并帮助加速模型的收敛。

对于形状为 (in_features, out_features) 的权重张量，Xavier 初始化将从均匀分布 [-a, a] 中随机采样初始值，其中 a = sqrt(6 / (in_features + out_features))。

在实际应用中，PyTorch 等深度学习框架提供了方便的 Xavier 初始化函数，如 nn.init.xavier_uniform_ 和 nn.init.xavier_normal_，可用于方便地初始化神经网络的权重。

共享参数

# 我们需要给共享层一个名称，以便可以引用它的参数
shared = nn.Linear(8, 8)
net = nn.Sequential(nn.Linear(4, 8), nn.ReLU(),
                    shared, nn.ReLU(),
                    shared, nn.ReLU(),
                    nn.Linear(8, 1))
net(X)

注意，net[0]：nn.Linear(4, 8)、net[1]：nn.ReLU()、net[2]：shared 以此类推……
损失函数也占用net里一格

# 检查参数是否相同
print(net[2].weight.data[0] == net[4].weight.data[0])
net[2].weight.data[0, 0] = 100
# 确保它们实际上是同一个对象，而不只是有相同的值
print(net[2].weight.data[0] == net[4].weight.data[0])

技术共进，成长同行——讯飞AI开发者社区

更多推荐

587章:汽车制造的主要流程

设计团队使用CAD软件进行三维建模，确保车辆的外观、结构和性能满足要求。总装工艺总装是将发动机、底盘、内饰和电子系统等组装到车身上的过程。智能制造工业4.0技术应用于汽车制造，包括物联网、大数据分析和人工智能。智能工厂实现生产过程的实时监控和优化，提高生产效率和产品质量。路试与台架测试成品车辆需经过多种路况测试和实验室台架测试，确保性能和安全达标。在线检测生产线上安装多种传感器和视觉系统，

讯飞AI开发者社区

648章:汽车制造的主要流程

讯飞AI开发者社区

多模态上下文工程化落地：提示工程架构师的ROI提升策略

在当今数字化浪潮中，人工智能技术日新月异。多模态数据，即包含文本、图像、音频、视频等多种形式的数据，正变得无处不在。想象一下，我们生活在一个信息丰富多样的世界里，就如同走进了一个大型的多媒体图书馆，每本书可能是文本形式，墙上挂着画作（图像），角落里播放着音乐（音频），还有视频在循环展示各种内容。多模态数据就像这个图书馆里丰富多样的信息载体。对于提示工程架构师而言，如何有效地处理和利用多模态上下文信