李沐-Softmax 回归模型

分类问题

什么是分类问题

回归 vs 分类
·回归估计一个连续值
·分类预测一个离散类别
例如：
kaggle中经典的分类问题：

将人类蛋白质显微镜图片分成28类
https://www.kaggle.com/c/human-protein-atlas-image-classification

将恶意软件分成9个类别
https://www.kaggle.com/c/malware-classification

将恶意的 Wikipedia评论分成7类
https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge

接下来，我们要选择如何表表示标签类别呢。我们有两个明显的选择：最直接的想法是选择y∈{1, 2, 3}，其中整数分别代表{狗, 猫, 鸡}。这是在计算机上存储此类信息的有效方法。如果类别间有⼀些自然顺序，比如说我们试图预测{婴儿, 儿童, 青少年, 青年人, 中年人, 老年人}，那么将这个问题转变为回归问题，并且保留这种格式是有意义的。但是⼀般的分类问题并不与类别之间的自然顺序有关。幸运的是，统计学家很早以前就发明了⼀种表示分类数据的简单方法：独热编码（one-hot encoding）。独热编码是⼀个向量，它的分量和类别⼀样多。类别对应的分量设置为1，其他所有分量设置为0。在我们的例子中，标签y将是⼀个三维向量，其中(1, 0, 0)对应于 “猫”、(0, 1, 0)对应于“鸡”、(0, 0, 1)对应于“狗”： y ∈ {(1, 0, 0),(0, 1, 0),(0, 0, 1)}.

网络架构

回归 vs 分类模型

为了估计所有可能类别的条件概率，我们需要一个有多个输出的模型，每个类别对应一个输出。在我们的例子中，由于我们有4个特征和3个可能的输出类别，我们将需要12个标量来表⽰权重（带下标的w），3个标量来表示偏置（带下标的b）。下⾯我们为每个输入计算三个未规范化的预测（logit）：o1、o2和o3。

o_{1} = x_{1} w_{11} + x_{2} w_{12} + x_{3} w_{13} + x_{4} w_{14} + b_{1}

$o_1=x_1w_{11}+x_2w_{12}+x_3w_{13}+x_4w_{14}+b_1$

o_{2} = x_{1} w_{21} + x_{2} w_{22} + x_{3} w_{23} + x_{4} w_{24} + b_{2}

$o_2=x_1w_{21}+x_2w_{22}+x_3w_{23}+x_4w_{24}+b_2$

o_{3} = x_{1} w_{31} + x_{2} w_{32} + x_{3} w_{33} + x_{4} w_{34} + b_{3}

$o_3=x_1w_{31}+x_2w_{32}+x_3w_{33}+x_4w_{34}+b_3$

softmax回归是⼀种单层神经网络。

通过向量形式表达为 $o = Wx + b$ ，这是⼀种更适合数
学和编写代码的形式。由此，我们已经将所有权重放到⼀个3 × 4矩阵中。对于给定数据样本的特征x，我们
的输出是由权重与输入特征进行矩阵-向量乘法再加上偏置b得到的。

softmax运算

我们希望模型的输出 $\widehat{y}_j$ 可以视为属于类j的概率，然后选择具有最大输出值的类别 $argmax_jy_j$ 作为我们的预测。
例如，类别{1，2，3}分别代表{狗, 猫, 鸡}。如果 $\widehat{y}_1$ 、 $\widehat{y}_2$ 和 $\widehat{y}_3$ 分别为0.1、0.8和0.1，那么我们预测的类别是2，代表着猫。
要将输出视为概率，我们必须保证在任何数据上的输出都是非负的且总和为1，并且还不能有负值。 softmax函数正是这样做的：softmax函数能够将未规范化的预测变换为非负数并且总和为1，同时让模型保持可导的性质。为了完成这⼀目标，我们首先对每个未规范化的预测求幂，这样可以确保输出非负。为了确保最终输出的概率值总和为1，我们再让每个求幂后的结果除以它们的总和。

\hat{y} = s o f t m a x (o) 其 中 {\hat{y}}_{j} = \frac{e x p (o_{j})}{\sum_{k} e x p (o_{k})}

$\widehat{y}=softmax(o) 其中\widehat{y}_j=\frac{exp(o_j)}{\sum_kexp(o_k)}$

这里，对于所有的j总有0 ≤ yˆj ≤ 1。因此，yˆ可以视为⼀个正确的概率分布。softmax运算不会改变未规范化
的预测o之间的大小次序，只会确定分配给每个类别的概率。因此，在预测过程中，我们仍然可以用下式来选
择最有可能的类别。

Softmax和交叉熵损失

交叉嫡常用来衡量两个概率的区别。说到交叉熵损失，我们通常想到这个公式

L = - [y l o g \hat{y} + (1 - y) l o g (1 - \hat{y})]

$L=-[ylog\widehat{y}+(1-y)log(1-\widehat{y})]$

我们假设真实标签y只有一个元素为1，其余元素都为0。然后上面的公式可以写成：

H (y, \hat{y}) = \sum_{i} - y_{i} l o g ({\hat{y}}_{i})

$H(y,\widehat{y})=\sum\limits_{i}-y_ilog(\widehat{y}_i)$

这个公式对于每个样本只有一项是存在的，就是真实值哪一项。
然后将 $\widehat{y}_j=\frac{exp(o_j)}{\sum_kexp(o_k)}$ 带入到 $l(y,\widehat{y})=-\sum\limits_{j=1}^{q}y_ilog{\widehat{y}_j}$

所以我们可以求得他的导数为：

总结
$·$ Softmax回归是一个多类分类模型
$·$ 使用Softmax操作子得到每个类的预测置信度
$·$ 使用交叉嫡来来衡量预测和标号的区别

回到顶部

损失函数

用来衡量预测值和真实值之间的区别。我们这里主要讲了L1 Loss,L2 Loss和Huber's Robust Loss，我们根据这些图像和分析方法，能够方便我们分析其他的损失函数

L2 Loss

L2 Loss均方误差，也称为MSELoss。

l (y, y^{'}) = \frac{1}{2} (y - y^{'})^{2}

$l(y,y')=\frac{1}{2}(y-y')^2$

蓝色的是y=0的图像，所以y(0)=0，然后它的横坐标是y与y'的差距，我们可以看成(y-y')。然后纵坐标就是 $y=\frac{1}{2}(y-y')^2$ 。绿色的是它的似然函数也就是 $e^{l(y,y')}$ ,橙色的表示的函数的梯度，是一个一次函数。
然后看看他是怎么更新我们的参数的：

这个红色箭头的方向就是它梯度更新的方向，我们发现当我们的y'与y差距很大的时候，我们的梯度比较大，所以更新的比较多。当我们的预测值y'不断接近y的时候，我们的梯度的绝对值会越来越小，更新的幅度也就越来越慢。
当然这也不一定是个好的事情，当我们的y'与y差距很大的时候我们不一定需要那么大的梯度来更新参数

L1 Loss

l (y, y^{'}) = | y - y^{'} |

$l(y,y')=|y-y'|$

这个蓝色的图像也是y=0的图像，所以y(0)=0。绿色的是它的似然函数也就是 $e^{l(y,y')}$ ，是一个指数函数,橙色的表示的函数的梯度，由于|x|在x=0这个点没有导数，x>0,导数为1，x<0,导数为-1,所以这个x=0的导数可以是[-1,1]之间。

这个更新的时候就是，加入你的预测值和真实值差距很大的时候我们的更新幅度是一个常数，也不是很大。
然后这个也有个问题，就是我们在更新末期的时候，他的更新幅度也是一个常数，可能会出现问题。

Huber's Robust Loss

我们可以把上面两个结合一下。

l (y, y^{'}) = \begin{aligned} {\begin{cases} | y - y^{'} | - \frac{1}{2}, & i f | y - y^{'} | > 1 \\ \frac{1}{2} (y - y^{'})^{2}, & o t h e r w i s e \end{cases} \end{aligned}

$l(y,y') = \begin{split} \begin{cases} |y-y'|-\frac{1}{2}, & if|y-y'|>1 \\ \frac{1}{2}(y-y')^2,& otherwise\\ \end{cases}\end{split}$

然后这个函数就是在我们(y-y')很大或者很小的时候是一个常数，-1<(y-y')<1的时候他是一个渐变的过程。

回到顶部

图像分类数据集

%matplotlib inline
import torch
import torchvision
from torch.utils import data
from torchvision import transforms
from d2l import torch as d2l
d2l.use_svg_display()

读取数据集

我们可以通过框架中的内置函数将Fashion-MNIST数据集下载并读取到内存中。

# 通过ToTensor实例将图像数据从PIL类型变换成32位浮点数格式，
# 并除以255使得所有像素的数值均在0〜1之间
trans = transforms.ToTensor()
mnist_train = torchvision.datasets.FashionMNIST(
root="../data/", train=True, transform=trans, download=True)
mnist_test = torchvision.datasets.FashionMNIST(
root="../data", train=False, transform=trans, download=True)

对于这个

mnist_train = torchvision.datasets.FashionMNIST(
root="../data/", train=True, transform=trans, download=True)

root是目录

train=true表示下载的是训练数据集,如果是测试集的话就是False

transform=transforms.ToTensor()：常用的图片变换，如ToTensor（转化成张量）、LinearTransformation（线性变换）、GaussianBlur（高斯模糊）等

download=True表示确定从网上下载

Fashion-MNIST由10个类别的图像组成，每个类别由训练数据集（train dataset）中的6000张图像和测试数据
集（test dataset）中的1000张图像组成。因此，训练集和测试集分别包含60000和10000张图像。测试数据集
不会用于训练，只用于评估模型性能。

len(mnist_train), len(mnist_test)

# (60000, 10000)

每个输入图像的高度和宽度均为28像素。数据集由灰度图像组成，其通道数为1。图片的形状 $\tt(channel,\ height,\ width)$ 为 $(1,28,28)$ 。
[59999]表示第60000张图片，[59999][0]表示data，[59999][1]表示Label

#[59999]表示第60000张图片，[59999][0]表示data，[59999][1]表示Label
mnist_train[59999][0].shape,mnist_train[59999][1]

Fashion-MNIST中包含的10个类别，分别为t-shirt（T恤）、trouser（裤子）、pullover（套衫）、dress（连衣裙）、coat（外套）、sandal（凉鞋）、shirt（衬衫）、sneaker（运动鞋）、bag（包）和ankle boot（短靴）。以下函数用于在数字标签索引及其文本名称之间进行转换。

def get_fashion_mnist_labels(labels): #@save
    """返回Fashion-MNIST数据集的⽂本标签"""
    text_labels = ['t-shirt', 'trouser', 'pullover', 'dress', 'coat','sandal', 'shirt', 'sneaker', 'bag', 'ankle boot'],
    return [text_labels[int(i)] for i in labels]

我们现在可以创建⼀个函数来可视化这些样本。

def show_images(imgs, num_rows, num_cols, titles=None, scale=1.5):  
    """Plot a list of images."""
    figsize = (num_cols * scale, num_rows * scale)
    _, axes = d2l.plt.subplots(num_rows, num_cols, figsize=figsize)
    axes = axes.flatten()
    for i, (ax, img) in enumerate(zip(axes, imgs)):
        if torch.is_tensor(img):
            ax.imshow(img.numpy())
        else:
            ax.imshow(img)
        ax.axes.get_xaxis().set_visible(False)
        ax.axes.get_yaxis().set_visible(False)
        if titles:
            ax.set_title(titles[i])
    return axes

以下是训练数据集中前几个样本的图像及其相应的标签。

X, y = next(iter(data.DataLoader(mnist_train, batch_size=18)))
show_images(X.reshape(18, 28, 28), 2, 9, titles=get_fashion_mnist_labels(y));

读取小批量

为了使我们在读取训练集和测试集时更容易，我们使用内置的数据迭代器，而不是从零开始创建。回顾⼀下，在每次迭代中，数据加载器每次都会读取⼀小批量数据，大小为batch_size。通过内置数据迭代器，我们可以随机打乱了所有样本，从而无偏见地读取小批量。

batch_size = 256

def get_dataloader_workers():
    """使用4个进程来读取数据。"""
    return 4

train_iter = data.DataLoader(mnist_train, batch_size, shuffle=True,
                             num_workers=get_dataloader_workers())

timer = d2l.Timer()
for X, y in train_iter:
    continue
f'{timer.stop():.2f} sec'

整合所有组件

现在我们定义load_data_fashion_mnist函数，用于获取和读取Fashion-MNIST数据集。这个函数返回训练集和验证集的数据迭代器。此外，这个函数还接受一个可选参数resize，用来将图像大小调整为另一种形状。

def load_data_fashion_mnist(batch_size, resize=None):  
    """下载Fashion-MNIST数据集，然后将其加载到内存中。"""
    trans = [transforms.ToTensor()]
    if resize:
        trans.insert(0, transforms.Resize(resize))
    trans = transforms.Compose(trans)
    mnist_train = torchvision.datasets.FashionMNIST(root="../data",
                                                    train=True,
                                                    transform=trans,
                                                    download=True)
    mnist_test = torchvision.datasets.FashionMNIST(root="../data",
                                                   train=False,
                                                   transform=trans,
                                                   download=True)
    return (data.DataLoader(mnist_train, batch_size, shuffle=True,
                            num_workers=get_dataloader_workers()),
            data.DataLoader(mnist_test, batch_size, shuffle=False,
                            num_workers=get_dataloader_workers()))

下面，我们通过指定resize参数来测试load_data_fashion_mnist函数的图像大小调整功能，也就是调整图片的宽和高。

train_iter, test_iter = load_data_fashion_mnist(32, resize=64)
for X, y in train_iter:
    print(X.shape, X.dtype, y.shape, y.dtype)
    break

回到顶部

softmax回归的从零开始实现

读入数据

我们之间使用刚刚在引入的Fashion-MNIST数据集，并设置数据迭代器的批量大小为256。这里我们使用的d2l中的load_data_fashion_mnist，源码也就是上面的那个。

import torch
from IPython import display
from d2l import torch as d2l

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

for X, y in train_iter:
    print(X.shape, X.dtype, y.shape, y.dtype)
    break

#torch.Size([256, 1, 28, 28]) torch.float32 torch.Size([256]) torch.int64

初始化模型参数

在softmax回归中，我们的输出与类别⼀样多。因为我们的数据集有10个类别，所以网络输出维度为10。因此，权重将构成⼀个 $784\times10$ 的矩阵，偏置将构成⼀个 $1 \times 10$ 的行向量。与线性回归⼀样，我们将使⽤正态分布初始化我们的权重W，偏置初始化为0。

num_inputs = 784
num_outputs = 10

W = torch.normal(0, 0.01, size=(num_inputs, num_outputs), requires_grad=True)
b = torch.zeros(num_outputs, requires_grad=True)

定义softmax操作

在实现softmax回归模型之前，我们简要回顾一下sum运算符如何沿着张量中的特定维度工作。给定一个矩阵X，我们可以对所有元素求和（默认情况下）。也可以只求同⼀个轴上的元素，即同一列（轴0）或同一行（轴1）。如果X是⼀个形状为(2, 3)的张量，我们对列进行求和，则结果将是一个具有形状(3,)的向量。当调用sum运算符时，我们可以指定保持在原始张量的轴数，也就是keepdim=True，而不折叠求和的维度。这将产生一个具有形状(1, 3)的⼆维张量。

X = torch.tensor([[1.0, 2.0, 3.0], [4.0, 5.0, 6.0]])
X.sum(0, keepdim=True), X.sum(1, keepdim=True)

实现softmax由三个步骤组成：

对每一项求幂（使使用exp）；
对每一行求和（小批量中每个样本是一行），得到每个样本的规范化常数；
将每⼀行除以其规范化常数，确保结果的和为1。
在查看代码之前，我们回顾一下这个表达式：

s o f t m a x (X)_{i j} = \frac{e x p (X_{i j})}{\sum_{k} e x p (X_{i k})}

$softmax(X)_{ij}=\frac{exp(X_{ij})}{\sum_kexp(X_{ik})}$

def softmax(X):
    X_exp = torch.exp(X)
    partition = X_exp.sum(1, keepdim=True)
    return X_exp / partition #这里应用了广播机制

测试上面的代码，我们将每个元素变成一个非负数。此外，依据概率原理，每行总和为1。

X = torch.normal(0, 1, (2, 5))
X_prob = softmax(X)
X_prob, X_prob.sum(1)
# (tensor([[0.0993, 0.5041, 0.0431, 0.0612, 0.2922],
#          [0.0510, 0.0281, 0.3125, 0.2880, 0.3204]]),
# tensor([1.0000, 1.0000]))

定义模型

定义softmax操作后，我们可以实现softmax回归模型。下⾯的代码定义了输入如何通过网络映射到输出。注
意，将数据传递到模型之前，我们使用reshape函数将每张原始图像展平为向量。

def net(X):
    return softmax(torch.matmul(X.reshape((-1, W.shape[0])), W) + b)

定义损失函数

这里使用的是交叉熵损失函数。交叉熵采用真实标签的预测概率的负对数似然。这里我们不使用Python的for循环迭代预测（这往往是低效的），而是通过一个运算符选择所有元素。下面，我们创建一个数据样本y_hat，其中包含2个样本在3个类别的预测概率，以及它们对应的标签y。有了y，我们知道在第一个样本中，第一类是正确的预测；而
在第二个样本中，第三类是正确的预测。然后使用y作为y_hat中概率的索引，我们选择第一个样本中第一个类的概率和第二个样本中第三个类的概率。

y = torch.tensor([0, 2])
y_hat = torch.tensor([[0.1, 0.3, 0.6], [0.3, 0.2, 0.5]])
y_hat[[0,1], y]

# tensor([0.1000, 0.5000])

现在我们只需一行代码就可以实现交叉熵损失函数。

def cross_entropy(y_hat, y):
    return -torch.log(y_hat[range(len(y_hat)), y])

cross_entropy(y_hat, y)
# tensor([2.3026, 0.6931])

分类精度

给定预测概率分布y_hat，当我们必须输出硬预测（hard prediction）时，我们通常选择预测概率最高的类。当预测与标签分类y⼀致时，即是正确的。分类精度即正确预测数量与总预测数量之比。虽然直接优化精度可能很困难（因为精度的计算不可导），但精度通常是我们最关心的性能衡量标准，我们在训练分类器时几乎总会关注它。
为了计算精度，我们执行以下操作。首先，如果y_hat是矩阵，那么假定第二个维度存储每个类的预测分数。我们使用argmax获得每行中最大元素的索引来获得预测类别。然后我们将预测类别与真实y元素进行比较。由于等式运算符“==”对数据类型很敏感，因此我们将y_hat的数据类型转换为与y的数据类型⼀致。结果是一个包含0（错）和1（对）的张量。最后，我们求和会得到正确预测的数量。

def accuracy(y_hat, y):  
    """计算预测正确的数量。"""
    if len(y_hat.shape) > 1 and y_hat.shape[1] > 1:
        y_hat = y_hat.argmax(axis=1)
    cmp = y_hat.type(y.dtype) == y
    return float(cmp.type(y.dtype).sum())

其实这个cmp是将y_hat和y做比较。返回的是这个

我们将继续使用之前定义的变量y_hat和y分别作为预测的概率分布和标签。可以看到，第⼀个样本的预测类别是2（该行的最大元素为0.6，索引为2），这与实际标签0不⼀致。第二个样本的预测类别是2（该行的最大元素为0.5，索引为2），这与实际标签2一致。因此，这两个样本的分类精度率为0.5。

accuracy(y_hat, y) / len(y)
# 0.5

同样，对于任意数据迭代器data_iter可访问的数据集，我们可以评估在任意模型net的精度。

def evaluate_accuracy(net, data_iter):  
    """计算在指定数据集上模型的精度。"""
    if isinstance(net, torch.nn.Module):
        net.eval()
    metric = Accumulator(2)
    for X, y in data_iter:
        metric.add(accuracy(net(X), y), y.numel())
    return metric[0] / metric[1]

其中net.eval()
这里定义一个实用程序类Accumulator，用于对多个变量进行累加。在上面的evaluate_accuracy函数中，我们在Accumulator实例中创建了2个变量，分别用于存储正确预测的数量和预测的总数量。当我们遍历数据集时，两者都将随着时间的推移而累加。

class Accumulator:  
    """在`n`个变量上累加。"""
    def __init__(self, n):
        self.data = [0.0] * n

    def add(self, *args):
        self.data = [a + float(b) for a, b in zip(self.data, args)]

    def reset(self):
        self.data = [0.0] * len(self.data)

    def __getitem__(self, idx):
        return self.data[idx]

由于我们使用随机权重初始化net模型，因此该模型的精度应接近于随机猜测。例如在有10个类别情况下的精度为0.1。

evaluate_accuracy(net, test_iter)

然后我们来看一下这个实用程序类Accumulator，用于对多个变量进行累加。

class Accumulator:
    def __init__(self, n):
        self.data = [0, 0] * n
    
    def add(self, *args):
        self.data = [a + float(b) for a, b in zip(self.data, args)]

    def reset(self):
        self.data = [0, 0] * len(self.data)
        
    def __getitem__(self, idx):
        return self.data[idx]


metric = Accumulator(3)
print(list(metric))
metric.add(3, 6, 9, 12)
print(list(metric))
metric.add(1, 1, 1, 1)
print(list(metric))

然后执行结果是这样的：

训练

我们重构训练过程的实现以使其可重复使用。首先，我们定义⼀个函数来训练⼀个迭代周期。请注意，updater是更新
模型参数的常用函数，它接受批量大小作为参数。它可以是d2l.sgd函数，也可以是框架的内置优化函数。

def train_epoch_ch3(net, train_iter, loss, updater):  
    # 将模型设置为训练模式
    if isinstance(net, torch.nn.Module):
        net.train()
	# 训练损失总和、训练准确度总和、样本数
    metric = Accumulator(3)
    for X, y in train_iter:
	# 计算梯度并更新参数
        y_hat = net(X)
        l = loss(y_hat, y)
        if isinstance(updater, torch.optim.Optimizer):
	# 使⽤PyTorch内置的优化器和损失函数
            updater.zero_grad()
            l.backward()
            updater.step()
            metric.add(
                float(l) * len(y), accuracy(y_hat, y),
                y.size().numel())
        else:
	# 使⽤定制的优化器和损失函数
            l.sum().backward()
            updater(X.shape[0])
            metric.add(float(l.sum()), accuracy(y_hat, y), y.numel())
	# 返回训练损失和训练精度
    return metric[0] / metric[2], metric[1] / metric[2]

在展示训练函数的实现之前，我们定义⼀个在动画中绘制数据的实用程序类Animator.

class Animator:  
    """在动画中绘制数据。"""
    def __init__(self, xlabel=None, ylabel=None, legend=None, xlim=None,
                 ylim=None, xscale='linear', yscale='linear',
                 fmts=('-', 'm--', 'g-.', 'r:'), nrows=1, ncols=1,
                 figsize=(3.5, 2.5)):
        if legend is None:
            legend = []
        d2l.use_svg_display()
        self.fig, self.axes = d2l.plt.subplots(nrows, ncols, figsize=figsize)
        if nrows * ncols == 1:
            self.axes = [self.axes,]
        self.config_axes = lambda: d2l.set_axes(self.axes[
            0], xlabel, ylabel, xlim, ylim, xscale, yscale, legend)
        self.X, self.Y, self.fmts = None, None, fmts

    def add(self, x, y):
        if not hasattr(y, "__len__"):
            y = [y]
        n = len(y)
        if not hasattr(x, "__len__"):
            x = [x] * n
        if not self.X:
            self.X = [[] for _ in range(n)]
        if not self.Y:
            self.Y = [[] for _ in range(n)]
        for i, (a, b) in enumerate(zip(x, y)):
            if a is not None and b is not None:
                self.X[i].append(a)
                self.Y[i].append(b)
        self.axes[0].cla()
        for x, y, fmt in zip(self.X, self.Y, self.fmts):
            self.axes[0].plot(x, y, fmt)
        self.config_axes()
        display.display(self.fig)
        display.clear_output(wait=True)

接下来我们实现⼀个训练函数，它会在train_iter访问到的训练数据集上训练⼀个模型net。该训练函数将
会运行多个迭代周期（由num_epochs指定）。在每个迭代周期结束时，利用test_iter访问到的测试数据集对
模型进行评估。我们将利用Animator类来可视化训练进度。

def train_ch3(net, train_iter, test_iter, loss, num_epochs, updater):  
    """训练模型（定义见第3章）。"""
    animator = Animator(xlabel='epoch', xlim=[1, num_epochs], ylim=[0.3, 0.9],
                        legend=['train loss', 'train acc', 'test acc'])
    for epoch in range(num_epochs):
        train_metrics = train_epoch_ch3(net, train_iter, loss, updater)
        test_acc = evaluate_accuracy(net, test_iter)
        animator.add(epoch + 1, train_metrics + (test_acc,))
    train_loss, train_acc = train_metrics
    assert train_loss < 0.5, train_loss
    assert train_acc <= 1 and train_acc > 0.7, train_acc
    assert test_acc <= 1 and test_acc > 0.7, test_acc

这里我们定义的小批量随机梯度下降来优化模型的损失函数，设置学习率为0.1。

lr = 0.1

def updater(batch_size):
    return d2l.sgd([W, b], lr, batch_size)

我们训练模型10个迭代周期。请注意，迭代周期（num_epochs）和学习率（lr）都是可调节的超参数。
通过更改它们的值，我们可以提高模型的分类精度。

num_epochs = 10
d2l.train_ch3(net, train_iter, test_iter, cross_entropy, num_epochs, updater)

预测

现在训练已经完成，我们的模型已经准备好对图像进行分类预测。给定一系列图像，我们将比较它们的实际标签（文本输出的第一行）和模型预测（文本输出的第二行）。

def predict_ch3(net, test_iter, n=6):  
    """预测标签（定义见第3章）。"""
    for X, y in test_iter:
        break
    trues = d2l.get_fashion_mnist_labels(y)
    preds = d2l.get_fashion_mnist_labels(net(X).argmax(axis=1))
    titles = [true + '\n' + pred for true, pred in zip(trues, preds)]
    d2l.show_images(X[0:n].reshape((n, 28, 28)), 1, n, titles=titles[0:n])

predict_ch3(net, test_iter)

回到顶部

softmax回归的简洁实现

这里我们通过深度学习框架的⾼级API也能更方便地实现softmax回归模型。这里面会涉及到一些d2l库中的东西，如果想看源码的话，可以看上面的从零实现

import torch
from torch import nn
from d2l import torch as d2l

读取数据

batch_size = 256
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)

初始化模型参数

softmax回归的输出层是一个全连接层。因此，为了实现我们的模型，我们只需在Sequential中添加一个带有10个输出的全连接层。同样，在这里Sequential并不是必要的，但它是实现深度模型的基础。我们仍然以均值0和标准差0.01随机初始化权重。当然我们也可以不初始化这个权重。

net = nn.Sequential(nn.Flatten(), nn.Linear(784, 10))

def init_weights(m):
    if type(m) == nn.Linear:
        nn.init.normal_(m.weight, std=0.01)

net.apply(init_weights);

定义交叉熵损失函数
在pytorch中nn.CrossEntropyLoss()为交叉熵损失函数，用于解决多分类问题，也可用于解决二分类问题。在使用nn.CrossEntropyLoss()其内部会自动加上Sofrmax层
ps:均方差损失函数是:nn.MSELoss

loss = nn.CrossEntropyLoss()

定义优化函数

使用学习率为0.1的小批量随机梯度下降作为优化算法
这个是optimizer优化器。具体怎么用可以看一下这个博客

torch.optim.SGD(params, lr=, momentum=0, dampening=0, weight_decay=0, nesterov=False)

params：待优化的参数，也就是model中的parameteres

lr：学习率

momentum：可选项，不选择为SGD，选择为SGDM

trainer = torch.optim.SGD(net.parameters(), lr=0.1)

训练

num_epochs = 10
d2l.train_ch3(net, train_iter, test_iter, loss, num_epochs, trainer)

posted @ 2023-08-05 11:06 lipu123 阅读(167) 评论(0) 编辑收藏举报

刷新页面返回顶部

（评论功能已被禁用）

相关博文：

· 优化算法-5.小批量随机梯度下降

· pytorch-线性回归模型（李沐）

· [深度学习]Softmax回归、损失函数、分类

· 李沐动手学深度学习V2-chapter_linear-networks

· 0902Softmax回归从零开始

公告

昵称： lipu123
园龄： 5年2个月
粉丝： 9
关注： 3

+加关注

2025年3月

日

一

二

三

四

五

六

lipu123

李沐-Softmax 回归模型

阅读目录

分类问题

什么是分类问题

网络架构

softmax运算

Softmax和交叉熵损失

损失函数

L2 Loss

L1 Loss

Huber's Robust Loss

图像分类数据集

读取数据集

读取小批量

整合所有组件

softmax回归的从零开始实现

读入数据

初始化模型参数

定义softmax操作

定义模型

定义损失函数

分类精度

训练

预测

softmax回归的简洁实现

公告

搜索

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论