您的位置:首页 > 健康 > 美食 > 新疆seo_苏州长尾词seo排名优化_江苏提升关键词排名收费_seo是什么意思 职业

新疆seo_苏州长尾词seo排名优化_江苏提升关键词排名收费_seo是什么意思 职业

2025/4/2 17:40:50 来源:https://blog.csdn.net/k316378085/article/details/146448144  浏览:    关键词:新疆seo_苏州长尾词seo排名优化_江苏提升关键词排名收费_seo是什么意思 职业
新疆seo_苏州长尾词seo排名优化_江苏提升关键词排名收费_seo是什么意思 职业

新手村:逻辑回归-理解02:逻辑回归中的伯努利分布

在这里插入图片描述

伯努利分布在逻辑回归中的潜在含义及其与后续推导的因果关系


1. 伯努利分布作为逻辑回归的理论基础

⭐️ 逻辑回归的核心目标是:

建模二分类问题中 目标变量 y y y 的概率分布

伯努利分布(Bernoulli Distribution)是逻辑回归的数学基础,因为它直接描述了二元结果(如“成功”或“失败”)的概率特性:

伯努利分布的定义

随机变量 y y y 服从参数为 p p p 的伯努利分布,即:
P ( y = 1 ) = p , P ( y = 0 ) = 1 − p P(y=1) = p, \quad P(y=0) = 1 - p P(y=1)=p,P(y=0)=1p
其中 p p p 是事件发生的概率, 0 < p < 1 0 < p < 1 0<p<1

逻辑回归的建模目标

逻辑回归假设

  1. 目标变量 y y y 服从伯努利分布,
  2. p p p(即 P ( y = 1 ∣ x ) P(y=1|x) P(y=1∣x))是输入特征 x x x 的函数。

因此,逻辑回归需要通过输入特征 x x x 的线性组合来建模 p p p


2. 对数几率(Odds)与线性组合的推导

⭐️ 逻辑回归的核心假设是:
对数几率(Logit)是输入特征的线性组合

⭐️ ⭐️ ⭐️这一假设直接来源于伯努利分布的参数 p p p 需要被建模为输入特征的函数:

推导

∵ \because ⭐️ 线性模型
z = w ⊤ x ; z=w^\top x ; z=wx;
∴ \therefore ⭐️ 线性数据通过sigmoid函数转换为概率
p = σ ( z ) = 1 1 + e − w ⊤ x p = \sigma(z)= \frac{1}{1+e^{-w^\top x}} p=σ(z)=1+ewx1

∴ \therefore ⭐️ (Odds)赔率公式

若事件发生的概率为 $ p $,则“发生与不发生的比值”称为(Odds)几率/赔率

在这里插入图片描述

O d d s = ( p 1 − p ) = σ ( z ) 1 − σ ( z ) = 1 1 + e − w ⊤ x / e − w ⊤ x 1 + e − w ⊤ x = 1 e − w ⊤ x = e w ⊤ x Odds = \left(\frac{p}{1-p}\right) = \frac{\sigma(z)}{1-\sigma(z)} = \frac{1}{1+e^{-w^\top x}} / \frac{e^{-w^\top x}}{1+e^{-w^\top x}}=\frac{1}{e^{-w^\top x}} = e^{w^\top x} Odds=(1pp)=1σ(z)σ(z)=1+ewx1/1+ewxewx=ewx1=ewx

∴ \therefore ⭐️(Log Odds)对数几率(赔率)的定义

这个等式的核心思想是:对数几率是输入特征 x x x 的线性组合

logit ( p ) = ln ⁡ ( p 1 − p ) = w ⊤ x \text{logit}(p) = \ln\left(\frac{p}{1-p}\right) = w^\top x logit(p)=ln(1pp)=wx
其中 w w w 是权重向量, x x x 是输入特征。

因果关系

因为伯努利分布的参数 p p p 需要满足 0 < p < 1 0 < p < 1 0<p<1,而线性组合 w ⊤ x w^\top x wx 的取值范围是 ( − ∞ , + ∞ ) (-\infty, +\infty) (,+),因此需要通过一个可逆的单调函数将线性组合映射到 ( 0 , 1 ) (0,1) (0,1) 区间,从而得到 p p p


3. Sigmoid函数的引入

Sigmoid函数是这一映射的自然选择,其数学形式为:
p = σ ( w ⊤ x ) = 1 1 + exp ⁡ ( − w ⊤ x ) p = \sigma(w^\top x) = \frac{1}{1 + \exp(-w^\top x)} p=σ(wx)=1+exp(wx)1

  • 因果关系
    • ⭐️ Sigmoid函数的输出范围恰好是 ( 0 , 1 ) (0,1) (0,1),与伯努利分布的概率 p p p 的取值范围一致
    • ⭐️ Sigmoid函数的导数形式( σ ( z ) ( 1 − σ ( z ) ) \sigma(z)(1-\sigma(z)) σ(z)(1σ(z))), 在后续的梯度计算中简化了优化过程
    • 在广义线性模型(GLM)框架下,伯努利分布属于指数族分布,其自然参数 η \eta η 是对数几率 log ⁡ ( p / ( 1 − p ) ) \log(p/(1-p)) log(p/(1p)),因此连接函数(link function)选择对数几率,直接导致 Sigmoid 函数的使用。

4. 交叉熵损失函数的来源

逻辑回归的损失函数选择交叉熵(Cross-Entropy),而非均方误差(MSE),这一选择与伯努利分布的概率结构直接相关

  • ⭐️ 伯努利分布的对数似然函数
    对于样本 ( x i , y i ) (x_i, y_i) (xi,yi),其对数似然为:
    log ⁡ P ( y i ∣ x i , w ) = y i log ⁡ p i + ( 1 − y i ) log ⁡ ( 1 − p i ) \log P(y_i | x_i, w) = y_i \log p_i + (1 - y_i)\log(1 - p_i) logP(yixi,w)=yilogpi+(1yi)log(1pi)
    其中 p i = σ ( w ⊤ x i ) p_i = \sigma(w^\top x_i) pi=σ(wxi)
    ⭐️ 最大化对数似然等价于最小化交叉熵损失
    Loss = − 1 N ∑ i = 1 N [ y i log ⁡ p i + ( 1 − y i ) log ⁡ ( 1 − p i ) ] \text{Loss} = -\frac{1}{N}\sum_{i=1}^N [y_i \log p_i + (1 - y_i)\log(1 - p_i)] Loss=N1i=1N[yilogpi+(1yi)log(1pi)]
  • 因果关系
    由于逻辑回归假设 y y y 服从伯努利分布,因此损失函数必须与该分布的对数似然函数一致。交叉熵直接来源于伯努利分布的概率表达式,而均方误差则忽略了概率的非线性约束,可能导致梯度问题(如预测值接近0或1时梯度趋近于0,收敛缓慢)。

5. 广义线性模型(GLM)的框架

逻辑回归是广义线性模型(GLM)的一个特例,其推导过程严格遵循 GLM 的结构:

  • GLM 的三个要素
    1. 随机成分:目标变量 y y y 服从伯努利分布。
    2. 系统成分:线性预测器 η = w ⊤ x \eta = w^\top x η=wx
    3. 连接函数:将线性预测器与 E ( y ∣ x ) E(y|x) E(yx)(即 p p p)联系起来。对于伯努利分布,连接函数选择对数几率函数:
      η = log ⁡ ( p 1 − p ) ⇒ p = σ ( η ) \eta = \log\left(\frac{p}{1-p}\right) \quad \Rightarrow \quad p = \sigma(\eta) η=log(1pp)p=σ(η)
  • 因果关系
    GLM 的框架要求连接函数必须与分布的特性匹配。伯努利分布的方差 Var ( y ) = p ( 1 − p ) \text{Var}(y) = p(1-p) Var(y)=p(1p) 是均值 p p p 的函数,因此模型无需估计方差,只需通过线性组合建模均值 p p p,从而简化了模型结构。

6. 参数估计与优化

逻辑回归通过最大似然估计(MLE) 求解参数 w w w,这一过程依赖于伯努利分布的对数似然函数

  • 极大似然估计
    w ^ = arg ⁡ max ⁡ w ∏ i = 1 N P ( y i ∣ x i , w ) = arg ⁡ max ⁡ w ∑ i = 1 N [ y i log ⁡ p i + ( 1 − y i ) log ⁡ ( 1 − p i ) ] \hat{w} = \arg\max_w \prod_{i=1}^N P(y_i | x_i, w) = \arg\max_w \sum_{i=1}^N [y_i \log p_i + (1 - y_i)\log(1 - p_i)] w^=argwmaxi=1NP(yixi,w)=argwmaxi=1N[yilogpi+(1yi)log(1pi)]
  • 优化方法
    因为对数似然函数是凸函数(在 w w w 上),梯度下降或牛顿法可以高效求解全局最优解。这一凸性也源于伯努利分布的对数似然的数学性质。

总结:伯努利分布的潜在含义与后续推导的因果关系

伯努利分布的作用导致的后续推导
1. 建模二分类目标变量 y y y 的概率分布→ 线性组合的对数几率假设
2. 参数 p p p 需满足 0 < p < 1 0 < p < 1 0<p<1→ 引入 Sigmoid 函数映射到概率空间
3. 对数似然函数的形式→ 交叉熵作为损失函数的选择
4. 属于指数族分布→ 在 GLM 框架下自然推导出模型形式
5. 方差与均值的依赖关系→ 无需估计方差,简化模型参数空间

关键结论

逻辑回归的整个建模过程(从假设到损失函数设计)本质上是伯努利分布的数学特性驱动的:

  • 伯努利分布的二元性:决定了模型需要预测概率 p p p 而不是直接分类。
  • 对数几率的线性假设:通过伯努利分布的对数似然推导出,确保模型的可解释性。
  • Sigmoid 函数与交叉熵:直接来源于伯努利分布的概率表达式,保证了数学上的合理性与优化效率。

这一理论框架使得逻辑回归成为二分类问题中简洁、高效且可解释的模型。

版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com