深度学习-手写数字图片识别

通过torch.nn.Module基类，实现了一个简单的全连接（feedforward）神经网络，对一系列手写数字图片进行识别训练，然后用测试数据进行测试，实现一个能够识别手写数字图片的神经网络模型。

import torch
from torch.utils.data import DataLoader
from torchvision import transforms
from torchvision.datasets import MNIST
import matplotlib.pyplot as plt# 设置网络参数 
class Net(torch.nn.Module):#torch.nn.Module基类，实现了一个简单的全连接（feedforward）神经网络def __init__(self):super().__init__()self.fc1 = torch.nn.Linear(28*28, 64)   #第一个全连接层，输入特征维度为28*28（假设输入图像是28x28像素的灰度图，因此被展平为784维的向量），输出特征维度为64。self.fc2 = torch.nn.Linear(64, 64)self.fc3 = torch.nn.Linear(64, 64)self.fc4 = torch.nn.Linear(64, 10)  #第四个全连接层，也称为输出层，输入特征维度为64，输出特征维度为10（假设这是一个10分类问题，如MNIST手写数字识别）def forward(self, x):   #通过一系列的层进行传播，每一层都会对数据进行一定的变换x = torch.nn.functional.relu(self.fc1(x))   #输入x（假设已经被展平为784维的向量）通过第一个全连接层self.fc1，然后应用ReLU非线性激活函数x = torch.nn.functional.relu(self.fc2(x))   #数据通过第二个全连接层x = torch.nn.functional.relu(self.fc3(x))x = torch.nn.functional.log_softmax(self.fc4(x), dim=1) #数据通过第四个全连接层，应用log_softmax函数。log_softmax是softmax函数的对数形式，它可以将输出转换为概率分布的形式return xdef get_data_loader(is_train):to_tensor = transforms.Compose([transforms.ToTensor()])data_set = MNIST("", is_train, transform=to_tensor, download=True)return DataLoader(data_set, batch_size=15, shuffle=True)    #使用迭代器来封装data_set，以便更方便地批量加载数据。同时还提供了打乱数据等功能，以便看到数据的不同组合，提高模型泛化能力。# 对模型准确性的评估
def evaluate(test_data, net):n_correct = 0   # 初始化正确预测的数量n_total = 0     # 初始化总预测的数量with torch.no_grad():   # 在评估模式下运行，关闭梯度计算，以节省内存和加速计算for (x, y) in test_data: #y为一个批次的特征outputs = net.forward(x.view(-1, 28*28))    # 将输入数据x重塑为适合网络的形状，并通过网络前向传播for i, output in enumerate(outputs):    # 遍历每个输出if torch.argmax(output) == y[i]:    # 检查预测是否正确n_correct += 1  # 如果正确，则增加正确预测的数量n_total += 1    # 无论预测是否正确，都增加总预测的数量return n_correct / n_total  # 返回准确率def main():train_data = get_data_loader(is_train=True)test_data = get_data_loader(is_train=False)net = Net()print("initial accuracy:", evaluate(test_data, net))optimizer = torch.optim.Adam(net.parameters(), lr=0.001)    #创建了一个Adam优化器实例，用于更新网络的参数（net.parameters()，置了学习率为0.001for epoch in range(2):  #训练过程将重复2次（epoch），每个epoch代表整个训练数据集的正向和反向传播过程完成一次for (x, y) in train_data:net.zero_grad() #清除之前所有计算得到的梯度值output = net.forward(x.view(-1, 28*28))loss = torch.nn.functional.nll_loss(output, y)  #计算输出output和真实标签y之间的负对数似然损失loss.backward() #根据损失函数计算得到的损失值，进行反向传播，计算网络中每个参数的梯度。optimizer.step()    #根据计算得到的梯度，更新网络的参数。print("epoch", epoch, "accuracy:", evaluate(test_data, net))for (n, (x, _)) in enumerate(test_data):    #对测试数据集进行遍历，每次返回一个元组，包含两个元素：输入数据x和对应标签y，用enumerate来获取索引nif n > 3:   #只处理测试数据集中的前四个样本（索引从0到3）breakpredict = torch.argmax(net.forward(x[0].view(-1, 28*28)))   #通过神经网络net对输入数据x进行前向传播，并获取预测结果，torch.argmax(...)用于获取预测概率最高的类别的索引，即预测标签。plt.figure(n)plt.imshow(x[0].view(28, 28))   #将展平的图像重新塑形为28x28的二维数组，并使用imshow函数显示它plt.title("prediction: " + str(int(predict)))plt.show()if __name__ == "__main__":main()

参考链接：60分钟Pytorch从入门到精通【第五期】！今天来讲【前向传播】！对零基础小白超友好的Pytorch教程~_哔哩哔哩_bilibili

深度学习-手写数字图片识别

推荐新闻

热搜词