河南建设工程信息网一体化平台官网_制作作业平台网站的设计_企点qq官网_贴吧推广

新手村：逻辑回归-理解03：逻辑回归中的最大似然函数

在这里插入图片描述

1. 似然函数

假设我们有一个二分类问题，其中 $N$ 个样本的数据集为 $\{(x_1, y_1), (x_2, y_2), \ldots, (x_N, y_N)\}$ ，每个样本 $x_i$ 对应一个标签 $y_i \in \{0, 1\}$ 。

对于每个样本 $i$ ，我们可以用逻辑回归模型来预测其属于类别1的概率：
$\hat{y}_i = P(y_i = 1 | x_i; w, b) = \sigma(w^T x_i + b)$
其中 $\sigma(z) = \frac{1}{1 + e^{-z}}$ 是sigmoid函数， $w$ 是权重向量， $b$ 是偏置项。

2. 单个样本的条件概率

对于单个样本 $i$ ，其条件概率可以表示为：
$P(y_i | x_i; w, b) = \begin{cases} \hat{y}_i & \text{if } y_i = 1 \\ 1 - \hat{y}_i & \text{if } y_i = 0 \end{cases}$

为了方便数学上的操作，我们希望把这两个分支合并成一个通用的公式。注意到：

当 $y_i = 1$ ，我们需要保留 $\hat{y}_i$ 并忽略 $\hat{y}_i$ 。
当 $y_i = 0$ ，我们需要保留 $\hat{y}_i$ 并忽略 $\hat{y}_i$ 。

因此，我们可以引入 幂运算 来实现这一点：
$P(y_i | x_i; w, b) = \hat{y}_i^{y_i} (1 - \hat{y}_i)^{1-y_i}.$

解释：

当 $y_i = 1$ ：

此时 $y_i^{y_i} = \hat{y}_i^1 = \hat{y}_i$ ，
而 $\hat{y}_i)^{1-y_i} = (1 - \hat{y}_i)^0 = 1$ 。
所以整个表达式变为 $P(y_i | x_i; w, b) = \hat{y}_i$ ，符合我们的预期。

当 $y_i = 0$ ：

此时 $\hat{y}_i^{y_i} = \hat{y}_i^0 = 1$ ，
而 $\hat{y}_i)^{1-y_i} = (1 - \hat{y}_i)^1 = 1 - \hat{y}_i$ 。
所以整个表达式变为 $P(y_i | x_i; w, b) = 1 - \hat{y}_i$ ，也符合我们的预期。

指数的作用

通过使用 $\hat{y}_i^{y_i}$ 和 $\hat{y}_i)^{1-y_i}$ ，我们巧妙地利用了 $y_i$ 的值（0或1）来选择合适的项：

当 $y_i = 1$ ，第一项 $\hat{y}_i^{y_i}$ 生效，第二项被消除。
当 $y_i = 0$ ，第二项 $\hat{y}_i)^{1-y_i}$ 生效，第一项被消除。

这种技巧的优点在于它允许我们在数学上用一个统一的表达式来描述两种不同的情况，而不需要显式的分支判断。

$P(y_i | x_i; w, b) = \hat{y}_i^{y_i} (1 - \hat{y}_i)^{1-y_i}$

3. 似然函数

似然函数是所有样本条件概率的乘积：
$\prod_{i=1}^N P(y_i | x_i; w, b) = \prod_{i=1}^N \left( \hat{y}_i^{y_i} (1 - \hat{y}_i)^{1-y_i} \right)$

4. 对数似然函数

为了简化优化过程，通常取似然函数的自然对数（ln），称为对数似然函数：
$\log L(w, b) = \log \left( \prod_{i=1}^N \left( \hat{y}_i^{y_i} (1 - \hat{y}_i)^{1-y_i} \right) \right)$

利用对数的性质 $\log(ab) = \log(a) + \log(b)$ ，我们可以将乘积转换为求和：
$\log L(w, b) = \sum_{i=1}^N \log \left( \hat{y}_i^{y_i} (1 - \hat{y}_i)^{1-y_i} \right)$

进一步利用对数的性质 $log(a^b) = b \log(a)$ ，得到：
$\log L(w, b) = \sum_{i=1}^N \left( y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right)$

这就是我们熟悉的对数似然函数的形式。

完整推导总结

似然函数：
$\prod_{i=1}^N \left( \hat{y}_i^{y_i} (1 - \hat{y}_i)^{1-y_i} \right)$
对数似然函数：
$\log L(w, b) = \sum_{i=1}^N \left( y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right)$

可视化对数似然函数

为了更好地理解对数似然函数的行为，我们可以绘制不同预测概率下的对数似然函数曲线。