重庆大渝网首页_重庆360网络推广_网站模板下载免费_互联网公司有哪些

本章节引入3.5的数据集

import torch
from IPython import display
from d2l import torch as d2lbatch_size = 256 #迭代器批量
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

3.6.1 初始化模型参数

num_inputs = 784 # 权重矩阵长度
num_outputs = 10 # 类别数量
W = torch.normal(0, 0.01, size=(num_inputs, num_outputs), requires_grad=True) # 权重矩阵
b = torch.zeros(num_outputs, requires_grad=True) # 偏置

图像尺寸28*28像素
‌权重W‌：从均值为0、标准差0.01的正态分布采样，形状 [784, 10]。
‌偏置b‌：初始化为全0，形状 [10]。
‌梯度追踪‌：requires_grad=True 启用自动微分。

3.6.2 定义softmax操作

def softmax(X):X_exp = torch.exp(X) # 处理计算自然指数函数e的幂（GPU计算效率高）partition = X_exp.sum(1, keepdim=True) # 0:列,1:行，计算为x行1列张量return X_exp / partition # 归一化-概率[[1/3,2/3],[3/7,4/7]]X = torch.normal(0, 1, (2, 5)) # torch.normal 用于生成服从‌正态分布（高斯分布）‌的随机数张量，支持多种参数形式（均值，标准差,（形状））
X_prob = softmax(X) # 概率
X_prob, X_prob.sum(1) # 概率和=1

在这里插入图片描述

3.6.3 定义模型

def net(X):a1 = X.reshape((-1, W.shape[0])) # 保持[*,len(W)]a2 = torch.matmul(a1, W) # torch.matmul矩阵乘法return softmax(a2 + b) # 返回对应概率

展平输入：X.reshape((-1, 784))（将 [batch_size,1,28,28] 转为 [batch_size,784]）。
线性变换：XW+b（输出 [batch_size,10]）。
Softmax归一化：得到每个类别的概率分布。

3.6.4 定义损失函数

y = torch.tensor([0, 2])
y_hat = torch.tensor([[0.1, 0.3, 0.6], [0.3, 0.2, 0.5]])
y_hat[[0, 1], y]

tensor([0.1000, 0.5000])
高级索引 : 索引列表会按‌位置配对‌，从y_hat中提取特定位置的元素
‌第一个元素‌：y_hat[0行, y[0]=0列] → 0.1
‌第二个元素‌：y_hat[1行, y[1]=2列] → 0.5

# 交叉熵损失函数
def cross_entropy(y_hat, y):return - torch.log(y_hat[range(len(y_hat)), y])# torch.log 对每个元素计算ln(x)cross_entropy(y_hat, y)

tensor([2.3026, 0.6931])

3.6.5 分类精度

def accuracy(y_hat, y):if len(y_hat.shape) > 1 and y_hat.shape[1] > 1: # 判断矩阵行、列>1y_hat = y_hat.argmax(axis=1)                # 获取矩阵每一行最大值所在索引cmp = y_hat.type(y.dtype) == y                  # 判断结果与实际值y是否有出入tensor([False,  True])return float(cmp.type(y.dtype).sum())           # 返回预测成功数量转换为y类型

accuracy(y_hat, y) / len(y)                         # 结果/总数=成功率

def evaluate_accuracy(net, data_iter):  # 准确性评估if isinstance(net, torch.nn.Module): # 若模型为PyTorch模块（如继承nn.Module），调用eval()禁用dropout、BatchNorm等训练期特定操作，确保推理一致性net.eval()  metric = Accumulator(2)   # 存储 [正确数, 总样本数]  for _, (X, y) in enumerate(data_iter): # 从data_iter迭代器中获取批次数据 X（输入）和 y（真实标签）# x([256, 1, 28, 28])，y([256,])，256个1通道28*28样本对应256个标签y# 通过对输入X进行展平操作后全连接随机特征矩阵W，再通过转换自然指数e进行gpu计算其概率metric.add(accuracy(net(X), y), d2l.size(y))#print(f'{metric[0]}  --  {metric[1]}')return metric[0] / metric[1] # 返回准确率

class Accumulator:  #@savedef __init__(self, n):self.data = [0.0] * n # [0.0, 0.0, ... n]#将传入的参数 args 按位置与 self.data 中的值逐元素相加def add(self, *args):self.data = [a + float(b) for a, b in zip(self.data, args)] #使用 zip(self.data, args) 对齐变量与输入值# 将所有累加变量重置为 0.0，用于新一轮统计def reset(self):self.data = [0.0] * len(self.data)#通过下标 idx 获取累加变量的值，支持类似列表的索引操作 print(obj[0]) def __getitem__(self, idx):return self.data[idx]

evaluate_accuracy(net, test_iter)

3.6.6 训练

‌net‌: 待训练的神经网络模型（nn.Module子类或自定义模型）。
‌train_iter‌: 训练数据迭代器（如DataLoader），每次迭代返回一个批次的数据(X, y)。
‌loss‌: 损失函数（如交叉熵损失）。
‌updater‌: 参数更新器，可以是PyTorch优化器（如optim.SGD）或自定义更新逻辑。

def train_epoch_ch3(net, train_iter, loss, updater): if isinstance(net, torch.nn.Module):net.train() # 若模型是PyTorch模块，则设置为训练模式（启用Dropout/BatchNorm等训练特定行为）。metric = Accumulator(3) # 创建3个累加变量 总损失 总正确数 总样本数for X, y in train_iter:# X([256, 1, 28, 28])输入， y真实标签y_hat = net(X) # 全连接得到概率l = loss(y_hat, y)if isinstance(updater, torch.optim.Optimizer):updater.zero_grad()  # 清零梯度l.backward()         # 反向传播计算梯度updater.step()       # 更新参数else:l.sum().backward()   # 向量损失求和后反向传播updater(X.shape[0])  # 自定义更新（如手动SGD）# float(l) * len(y)‌: 将批次损失扩展到样本数（若l是均值损失）。# ‌accuracy(y_hat, y)‌: 计算当前批次的正确预测数。# ‌y.numel()‌: 当前批次的样本数（如batch_size）。metric.add(float(l.sum()), accuracy(y_hat, y), y.numel())# 平均训练损失‌: 总损失 / 总样本数# 平均训练精度‌: 总正确数 / 总样本数return metric[0] / metric[2], metric[1] / metric[2]

class Animator:  # 绘制图表类# 在动画中绘制数据def __init__(self, xlabel=None, ylabel=None, legend=None, xlim=None,ylim=None, xscale='linear', yscale='linear',fmts=('-', 'm--', 'g-.', 'r:'), nrows=1, ncols=1,figsize=(3.5, 2.5)):# 增量绘制多条线if legend is None:legend = []d2l.use_svg_display()self.fig, self.axes = d2l.plt.subplots(nrows, ncols, figsize=figsize)if nrows * ncols == 1:self.axes = [self.axes, ]# 使用lambda捕捉参数self.config_axes = lambda: d2l.set_axes(self.axes[0], xlabel, ylabel, xlim, ylim, xscale, yscale, legend)self.X, self.Y, self.fmts = None, None, fmtsdef add(self, x, y):# 向图表添加多个数据点if not hasattr(y, "__len__"):y = [y]n = len(y)if not hasattr(x, "__len__"):x = [x] * nif not self.X:self.X = [[] for _ in range(n)]if not self.Y:self.Y = [[] for _ in range(n)]for i, (a, b) in enumerate(zip(x, y)):if a is not None and b is not None:self.X[i].append(a)self.Y[i].append(b)self.axes[0].cla()for x, y, fmt in zip(self.X, self.Y, self.fmts):self.axes[0].plot(x, y, fmt)self.config_axes()display.display(self.fig)display.clear_output(wait=True)

批量训练

def train_ch3(net, train_iter, test_iter, loss, num_epochs, updater):  #@save# 可视化工具初始化animator = Animator(xlabel='epoch', xlim=[1, num_epochs], ylim=[0.3, 0.9],legend=['train loss', 'train acc', 'test acc'])for epoch in range(num_epochs):train_metrics = train_epoch_ch3(net, train_iter, loss, updater) # 训练单个 epochtest_acc = evaluate_accuracy(net, test_iter) # 得到准确率animator.add(epoch + 1, train_metrics + (test_acc,)) # 绘制到图表(train_loss, train_acc, test_acc)train_loss, train_acc = train_metricsassert train_loss < 0.5, train_loss # assert condition, error_message false则抛出异常assert train_acc <= 1 and train_acc > 0.7, train_accassert test_acc <= 1 and test_acc > 0.7, test_acc

定义学习率为0.1的随机梯度下降（SGD）优化器

def updater(batch_size):# [W, b]：待优化的参数列表（权重和偏置）# lr=0.1：学习率（步长超参数）# batch_size：用于梯度归一化的批量大小return d2l.sgd([W, b], lr, batch_size)

num_epochs = 10 # 训练轮次
train_ch3(net, train_iter, test_iter, cross_entropy, num_epochs, updater)

在这里插入图片描述

def predict_ch3(net, test_iter, n=6):  """Predict labels (defined in Chapter 3)."""for X, y in test_iter:  # 获取第一批测试数据breaktrues = d2l.get_fashion_mnist_labels(y)  # 真实标签转文本preds = d2l.get_fashion_mnist_labels(d2l.argmax(net(X), axis=1))  # 预测标签转文本titles = [true +'\n' + pred for true, pred in zip(trues, preds)]  # 组合标签d2l.show_images(d2l.reshape(X[0:n], (n, 28, 28)), 1, n, titles=titles[0:n])  # 可视化predict_ch3(net, test_iter)

在这里插入图片描述

重庆大渝网首页_重庆360网络推广_网站模板下载免费_互联网公司有哪些

3.6.1 初始化模型参数

3.6.2 定义softmax操作

3.6.3 定义模型

3.6.4 定义损失函数

3.6.5 分类精度

3.6.6 训练

推荐新闻

热搜词