一、概念
Dropout是为了解决过拟合,当层数加深,就有可能过拟合,这个时候模型太复杂就会过拟合,那么可以让模型变得简单一点,所以就可以随机挑一些神经元,让某些神经元的输出是0,只保留部分神经元的输出给下一层,这个过程是随机的。但是在推理的时候这些神经元相当于变得透明,不再随机。丢多少的比例就是超参。
二、AlphaDropout
AlphaDropout是Dropout的一个变种,在应用Dropout时使用了一个额外的缩放因子alpha。与标准Dropout相比,AlphaDropout在将一些输出设置为0的同时,也会对剩余输出进行缩放,来保持网络权重的期望值不变(均值和方差)。这种缩放可以增加训练的稳定性。
三、代码
只在第一层加AlphaDropout,i可以控制加多少AlphaDropout,这里没加,注释掉了。
class NeuralNetwork(nn.Module):def __init__(self, layers_num=2):super().__init__()self.transforms = transformsself.flatten = nn.Flatten()# 多加几层self.linear_relu_stack = nn.Sequential(nn.Linear(28 * 28, 100), # in_features=784, out_features=300nn.ReLU(),nn.AlphaDropout(p=0.2) # 增加dropout,p=0.2表示以0.2的概率将某些神经元置0,防止过拟合)# 加19层for i in range(1, layers_num):self.linear_relu_stack.add_module(f"Linear_{i}", nn.Linear(100, 100))self.linear_relu_stack.add_module(f"relu", nn.ReLU())if i<3:# self.linear_relu_stack.add_module(f"dropout_{i}", nn.AlphaDropout(p=0.2))pass# 增加dropout# 输出层self.linear_relu_stack.add_module("Output Layer", nn.Linear(100, 10))# 初始化权重self.init_weights()def init_weights(self):"""使用 xavier 均匀分布来初始化全连接层的权重 W"""for m in self.modules():if isinstance(m, nn.Linear):nn.init.xavier_uniform_(m.weight)nn.init.zeros_(m.bias)def forward(self, x):# x.shape [batch size, 1, 28, 28]x = self.transforms(x)x = self.flatten(x) # 展平后 x.shape [batch size, 28 * 28]logits = self.linear_relu_stack(x)# logits.shape [batch size, 10]return logitsprint(f"{'layer_name':^40}\tparamerters num")
for idx, (key, value) in enumerate(NeuralNetwork(20).named_parameters()):print("{:<40}\t{:^10}".format(key, np.prod(value.shape)))