您的位置:首页 > 健康 > 美食 > 广州网络营销系统_罗湖网站制作多少钱_刚刚中国出啥大事了_seo搜索引擎优化技术教程

广州网络营销系统_罗湖网站制作多少钱_刚刚中国出啥大事了_seo搜索引擎优化技术教程

2024/12/23 9:29:49 来源:https://blog.csdn.net/2301_77717148/article/details/144545871  浏览:    关键词:广州网络营销系统_罗湖网站制作多少钱_刚刚中国出啥大事了_seo搜索引擎优化技术教程
广州网络营销系统_罗湖网站制作多少钱_刚刚中国出啥大事了_seo搜索引擎优化技术教程

机器学习0-为什么Relu函数


文章目录

  • 机器学习0-为什么Relu函数
    • @[toc]
    • 1-手搓神经网络步骤总结
    • 2-为什么要用Relu函数
    • 3-进行L1正则化
      • 修改后的代码
      • 解释
    • 4-进行L2正则化
      • 解释
      • 注意事项
    • 5-Relu激活函数多有夸张
      • 1-细数Relu函数的5宗罪
      • 2-Relu函数5宗罪详述
    • 6-那为什么要用这个Relu函数
    • 7-文本分类情感分析任务激活
      • 特征之间的关系
      • 常用的激活函数
      • 总结
    • 8-专业词汇解释

1-手搓神经网络步骤总结

  • 1)基于【预测值和真实值】最小的差别(使用最小二乘法)计算误差值
  • 2)如何求解【最小二乘法】的方法,分别针对w和b进行求导,计算方法叫做【梯度下降求解】->引入【迭代步数】+【学习率】的概念
  • 3)为了解决多个神经元的线性组合还是直线的问题进行非线性变换(激活函数)->引入ReLu等激活函数,各取所长
  • 4)OK,至此已经完美的解决了【线性模型】+【误差计算】+【梯度求解】+【非线性变化】的问题,直接可以得到我们的模型了
  • 5)但是这样的模型太过完美,导致计算的数据可能针对【训练和验证数据】太过完美,针对新数据预测不准->引入【L1/L2正则】

2-为什么要用Relu函数

为什么一个小学生都会的函数,可以解决神经网络中的梯度问题?

1)神经网络是基于线性组合进行变换了,就会导致所有的线性函数不论经过多少次变换都还是一个线性函数
2)OK,现在引入【非线性环变换-Relu函数】那么怎么解释这几个问题?

  • 1)多个Relu函数线性变换到底是个什么鬼?->可以用python进行绘制【曲线】->OK,y值经过Relu(y)后再线性组合可以表示非线性问题
  • 2)那为什么要用这个Relu函数?貌似我随手写一个函数,sin、cos、tan、cot甚至我手写一个只要不是直线的方程都可以实现【非线性变换】->答案:【生物学启示】+【计算效率】

诚实一点:别说太多玄乎的东西,就两个核心点【老板亲儿子->神经网络的生物学启示】+【计算时偷懒->把负数置为0,这样就不用计算负数部分的运算(计算效率)】

其他【稀疏性】+【缓解梯度消失问题】->先说【缓解梯度消失问题】只要斜率为0大家都会梯度消失,sigmoid或tanh这样的饱和非线性函数斜率会变为0,Relu函数在小于0时,直接就全变为0(直接躺平,大家都梯度消失了,所以这个接口太牵强了)

再说【稀疏性】所谓的【稀疏性】说人话就是让部分参数不参与计算(不激活),实现这个方式也太简单了,我可以选择跳过随机参数或者其他的方式都行,所以这个接口也太牵强

  • 3)OK,如果是【老板的儿子】当然是选择接纳他啦,还能怎么办!那Relu函数的主要负责什么场景,这样我们遇到这些场景,赶紧找Relu函数去大展拳脚,秀一波肌肉?->【线性特征场景(一半是线性)】+【长文本的稀疏计算(数据置0保留核心)】+【深度神经网络(数据置0计算简单)】
  • ReLU有一半是线性方程,可以很好的学习到线性特征;

  • 因为简单在深度神经网络的计算中可以有效计算;

  • 文本分类和情感分析等任务中只有核心的要点关键字,使用RelU可以剔除没有梯度变化的数据

  • 4)OK,【老板的儿子】再有本事也得找帮手进行互补,有没有其他的激活函数也可以解决这些事情?-> 四大金刚:Sigmoid、ReLU、Tanh 和 Leaky ReLU

其他激活函的场景:https://mp.weixin.qq.com/s?__biz=Mzk0NDM4OTYyOQ==&mid=2247484448&idx=1&sn=f5ae1d222067f7125cba799742ee17d3&chksm=c32428b2f453a1a43a99d88b060f1366dde591afa1ed78825a978e83a4bb3fe1eac922ddd217&token=142243382&lang=zh_CN#rd


3-进行L1正则化

在你的代码中,你已经实现了基本的梯度下降算法来拟合一个简单的线性模型,并使用Sigmoid函数作为激活函数。为了防止过拟合,你可以通过添加L1正则化来限制模型的复杂度。L1正则化通过在损失函数中添加模型参数的绝对值之和来实现。

下面是如何在你的代码中添加L1正则化的步骤:

  1. 定义正则化项:在损失函数中添加L1正则化项。
  2. 修改梯度计算:在计算梯度时,考虑正则化项的影响。

修改后的代码

import numpy as np# 输入数据
x_data = np.array([0, 1, 2, 3, 4])
y_data = np.array([0, 2, 4, 6, 8])# 初始化参数
m = 0
b = 0# 超参数
learning_rate = 0.01
epochs = 1000
lambda_l1 = 0.01  # L1正则化系数# Sigmoid激活函数
def sigmoid(x):return 1 / (1 + np.exp(-x))# Sigmoid的导数
def sigmoid_derivative(x):return sigmoid(x) * (1 - sigmoid(x))def compute_gradients(m, b, x, y, lambda_l1):N = len(x)z = m * x + by_pred = sigmoid(z)  # 使用sigmoid作为激活函数error = y_pred - ydL_dy_pred = errordL_dz = dL_dy_pred * sigmoid_derivative(z)  # 使用sigmoid的导数# 计算L1正则化的梯度dm_l1 = lambda_l1 * np.sign(m)db_l1 = lambda_l1 * np.sign(b)# 计算总的梯度dm = (2/N) * np.sum(dL_dz * x) + dm_l1db = (2/N) * np.sum(dL_dz) + db_l1return dm, dbfor epoch in range(epochs):dm, db = compute_gradients(m, b, x_data, y_data, lambda_l1)m = m - learning_rate * dmb = b - learning_rate * dbif epoch % 100 == 0:z = m * x_data + by_pred = sigmoid(z)  # 使用sigmoid作为激活函数进行预测loss = np.mean((y_pred - y_data)**2) + lambda_l1 * (abs(m) + abs(b))  # 添加L1正则化项print(f"Epoch {epoch}: m = {m}, b = {b}, loss = {loss}")print(f"Final equation: y = {m} * x + {b}")

解释

  1. 正则化系数 lambda_l1:这是一个超参数,控制L1正则化的强度。较大的值会导致模型参数更接近于零,从而减少模型的复杂度。

  2. 正则化项的梯度:在 compute_gradients 函数中,我们添加了L1正则化的梯度 dm_l1db_l1。L1正则化的梯度是参数的符号函数 np.sign(m)np.sign(b) 乘以正则化系数 lambda_l1

  3. 损失函数:在计算损失时,我们添加了L1正则化项 lambda_l1 * (abs(m) + abs(b)),这会使得模型参数的绝对值之和最小化。

通过这种方式,L1正则化可以帮助模型避免过拟合,尤其是在数据量较小或特征较多的情况下。


4-进行L2正则化

你的代码尝试使用梯度下降算法通过线性回归拟合线性数据,并且使用了 Sigmoid 激活函数。然而,对于线性数据,使用 Sigmoid 激活函数并不是最佳选择,因为它会将输出压缩到 0 和 1 之间,这可能导致损失函数值很高且收敛缓慢。

另外,你的代码中没有加入 L2 正则化来避免过拟合。为了在代码中添加 L2 正则化,我们需要在损失函数中加入一个正则化项,并在计算梯度时考虑这个项。L2 正则化项通常表示为参数的平方和乘以一个正则化系数 λ。

以下是修改后的代码,加入了 L2 正则化:

import numpy as np# 输入数据
x_data = np.array([0, 1, 2, 3, 4])
y_data = np.array([0, 2, 4, 6, 8])# 初始化参数
m = 0
b = 0# 超参数
learning_rate = 0.01
epochs = 1000
lambda_reg = 0.1  # 正则化系数# Sigmoid激活函数
def sigmoid(x):return 1 / (1 + np.exp(-x))# Sigmoid的导数
def sigmoid_derivative(x):return sigmoid(x) * (1 - sigmoid(x))def compute_gradients(m, b, x, y, lambda_reg):N = len(x)z = m * x + by_pred = sigmoid(z)  # 使用sigmoid作为激活函数error = y_pred - ydL_dy_pred = errordL_dz = dL_dy_pred * sigmoid_derivative(z)  # 使用sigmoid的导数dm = (2/N) * np.sum(dL_dz * x) + (2 * lambda_reg * m / N)  # 添加L2正则化项db = (2/N) * np.sum(dL_dz) + (2 * lambda_reg * b / N)  # 添加L2正则化项return dm, dbfor epoch in range(epochs):dm, db = compute_gradients(m, b, x_data, y_data, lambda_reg)m = m - learning_rate * dmb = b - learning_rate * dbif epoch % 100 == 0:z = m * x_data + by_pred = sigmoid(z)  # 使用sigmoid作为激活函数进行预测loss = np.mean((y_pred - y_data)**2) + (lambda_reg * (m**2 + b**2) / N)  # 添加L2正则化项print(f"Epoch {epoch}: m = {m}, b = {b}, loss = {loss}")print(f"Final equation: y = {m} * x + {b}")

解释

  1. L2 正则化项:在 compute_gradients 函数中,我们添加了 L2 正则化项 (2 * lambda_reg * m / N)(2 * lambda_reg * b / N),分别对 mb 的梯度进行正则化。
  2. 损失函数:在计算损失函数时,我们也添加了 L2 正则化项 (lambda_reg * (m**2 + b**2) / N)

注意事项

  • 正则化系数 λlambda_reg 是一个超参数,需要通过交叉验证等方法来选择合适的值。
  • 数据线性:对于线性数据,使用线性激活函数(如直接使用 z 而不是 sigmoid(z))可能会更合适,这样可以避免 Sigmoid 的压缩效应。
  • 学习率:学习率 learning_rate 也需要适当调整,以确保模型能够收敛。

希望这些修改能帮助你更好地理解和应用 L2 正则化。


5-Relu激活函数多有夸张

Relu激活函数是一个初中生都可以随手写出来的一个函数,看一下想法有多夸张【人有多么懒,地有多大产】

  • 1)直接把带负值公式全部删除了(啊啊啊啊啊啊啊。。。。)

  • 2)直接把负值参数全部抹掉了是个什么概念,我类比一下:数学老师让我算题

    -2x+3y=5
    4x+7y=8
    3x+8y=15
    
  • 3)我感觉负数不好看,直接把第一个公式删掉了,按照下面两个公式进行计算了。(啊啊啊啊啊啊啊。。。。)

  • 4)恐怖的不是我把这个公式删掉了,恐怖的是整个AI圈都在用这个方法进行求解(啊啊啊啊啊啊啊。。。。)

1-细数Relu函数的5宗罪

  • 1-引入非线性(解决线性组合的缺陷)

  • 2-计算效率高(强制把梯度设置为1和0-为0时把数据丢掉了)

  • 3-缓解梯度消失问题(强制把梯度设置为1和0)

  • 4-稀疏激活(强制把梯度设置为1和0)

  • 5-死亡ReLU问题(强制把梯度设置为1和0)


2-Relu函数5宗罪详述

引入非线性:在神经网络中,如果没有激活函数,多层神经网络等价于单层神经网络,因为线性变换的组合仍然是线性的。激活函数引入了非线性,使得神经网络能够学习和表示复杂的函数关系。

计算效率高:ReLU函数的计算非常简单,只需要进行一次阈值操作,即判断输入是否大于0。这在计算上比其他激活函数(如sigmoid或tanh)要高效得多,因为它们涉及指数运算。

3)缓解梯度消失问题:在深度网络中,使用sigmoid或tanh等饱和激活函数时,容易出现梯度消失问题,即在反向传播过程中,梯度值会随着层的加深而指数级衰减,导致网络训练困难。ReLU在x>0区域的梯度恒为1,因此可以缓解这个问题,使得深层网络更容易训练。

稀疏激活:ReLU函数会将所有负输入置零,这会导致一部分神经元在某些情况下不被激活,从而形成稀疏的激活模式。这种稀疏性有助于减少计算量,并可能有助于特征学习。

5)死亡ReLU问题:尽管ReLU有很多优点,但也存在一些问题。其中一个问题是“死亡ReLU”现象,即当神经元的输入长期为负时,其梯度为零,权重不再更新,神经元变得无效。为了解决这个问题,一些变体如Leaky ReLU、PReLU和ELU被提出,它们在x<0时引入一个小的斜率,以避免神经元死亡。


6-那为什么要用这个Relu函数

貌似我随手写一个函数,sin、 cos、 tan、 cot甚至我手写一个只要不是直线的方程都可以实现【非线性变换】

确实,许多函数都可以实现非线性变换,包括sincostancot等。然而,ReLU(Rectified Linear Unit)函数在深度学习中被广泛使用,主要基于以下几个原因:

  1. 计算效率:ReLU函数非常简单,其数学表达式为f(x) = max(0, x)。这意味着在计算时只需要进行一个简单的比较和取最大值操作,这比其他复杂的非线性函数(如sincos等)要快得多。

  2. 稀疏性:ReLU函数会将所有负值置为0,这有助于引入稀疏性。在神经网络中,稀疏性通常被认为是一种有益的特性,因为它可以帮助模型更好地泛化,并减少过拟合的风险。同时,这也使得网络更加高效,因为许多神经元在某一时刻可能处于非激活状态(输出为0),从而节省了计算资源。

  3. 缓解梯度消失问题:在深度神经网络中,当使用像sigmoidtanh这样的饱和非线性函数时,梯度在反向传播过程中可能会逐渐消失,导致网络难以训练。而ReLU函数在正数区域内的导数为1,这意味着梯度可以顺畅地通过该层,从而缓解了梯度消失的问题。

  4. 生物学启示:ReLU函数在某种程度上模拟了生物神经元的激活方式。在生物学中,神经元通常只在输入信号达到一定阈值时才会被激活。ReLU函数通过设定一个阈值(在本例中为0),实现了类似的行为。

当然,ReLU函数也有其局限性,例如“死亡ReLU”问题,即当神经元在训练过程中一直处于非激活状态时,其权重可能无法得到有效的更新。为了解决这个问题,人们提出了一些ReLU的变种,如Leaky ReLU、Parametric ReLU等。

总的来说,尽管存在许多其他非线性函数可供选择,但ReLU函数因其简单性、高效性和在深度学习中的良好表现而成为了一个流行的选择。


7-文本分类情感分析任务激活

在文本分类、情感分析等自然语言处理任务中,特征之间的关系通常是通过神经网络模型来捕捉的。这些特征可以是词向量、词频、句子结构等,而激活函数则在这些模型中起到关键作用,帮助模型学习非线性关系,从而更有效地进行分类或情感分析。

特征之间的关系

  1. 线性关系:在某些简单的文本分类任务中,特征之间的关系可能是线性的。例如,词频特征可以直接用于线性回归或逻辑回归模型。
  2. 非线性关系:在更复杂的任务中,特征之间的关系往往是非线性的。例如,情感分析中,词语的顺序、上下文关系等都需要通过非线性模型来捕捉。
  3. 层次关系:在深度学习模型中,特征之间的关系通常是通过多层神经网络来捕捉的。每一层的输出都是对输入特征的更高层次的抽象表示。

常用的激活函数

  1. ReLU(Rectified Linear Unit)

    • 公式 f ( x ) = max ⁡ ( 0 , x ) f(x) = \max(0, x) f(x)=max(0,x)
    • 优点:计算简单,避免了梯度消失问题,广泛用于卷积神经网络(CNN)和全连接网络(FCN)。
    • 适用场景:适用于大多数文本分类和情感分析任务,尤其是在深层网络中。
  2. Sigmoid

    • 公式 f ( x ) = 1 1 + e − x f(x) = \frac{1}{1 + e^{-x}} f(x)=1+ex1
    • 优点:输出范围在0到1之间,常用于二分类问题。
    • 缺点:容易出现梯度消失问题,尤其是在深层网络中。
    • 适用场景:适用于二分类的情感分析任务。
  3. Tanh(Hyperbolic Tangent)

    • 公式 f ( x ) = tanh ⁡ ( x ) = e x − e − x e x + e − x f(x) = \tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}} f(x)=tanh(x)=ex+exexex
    • 优点:输出范围在-1到1之间,相对于Sigmoid函数,Tanh函数的梯度更大,训练速度更快。
    • 缺点:仍然存在梯度消失问题。
    • 适用场景:适用于一些需要输出的特征值在一定范围内的场景。
  4. Softmax

    • 公式 f ( x i ) = e x i ∑ j = 1 n e x j f(x_i) = \frac{e^{x_i}}{\sum_{j=1}^{n} e^{x_j}} f(xi)=j=1nexjexi
    • 优点:用于多分类问题,输出是一个概率分布,所有类别的概率和为1。
    • 适用场景:适用于多分类的文本分类和情感分析任务。
  5. Leaky ReLU

    • 公式 f ( x ) = max ⁡ ( 0.01 x , x ) f(x) = \max(0.01x, x) f(x)=max(0.01x,x)
    • 优点:在ReLU的基础上解决了“dying ReLU”问题,即当输入为负时,输出不再是0,而是一个小于0的值。
    • 适用场景:适用于需要处理负值特征的任务,可以提升模型的泛化能力。
  6. GELU(Gaussian Error Linear Unit)

    • 公式 f ( x ) = x ⋅ Φ ( x ) f(x) = x \cdot \Phi(x) f(x)=xΦ(x),其中 Φ ( x ) \Phi(x) Φ(x)是标准正态分布的累积分布函数。
    • 优点:在Transformer模型中表现良好,能够更好地处理复杂的非线性关系。
    • 适用场景:适用于Transformer等复杂的深度学习模型。

总结

  • 特征关系:在文本分类和情感分析中,特征之间通常是非线性关系,需要通过激活函数来捕捉这些关系。
  • 激活函数:常用的激活函数包括ReLU、Sigmoid、Tanh、Softmax、Leaky ReLU和GELU,选择合适的激活函数可以显著提升模型的性能。

在实际应用中,选择激活函数通常取决于任务的复杂度和模型的结构。对于简单的任务,ReLU和Sigmoid可能已经足够;而对于复杂的任务,使用GELU等更复杂的激活函数可能会带来更好的效果。


8-专业词汇解释

  1. 计算效率:ReLU函数非常简单,其数学表达式为f(x) = max(0, x)。这意味着在计算时只需要进行一个简单的比较和取最大值操作,这比其他复杂的非线性函数(如sincos等)要快得多。

  2. 稀疏性:ReLU函数会将所有负值置为0,这有助于引入稀疏性。在神经网络中,稀疏性通常被认为是一种有益的特性,因为它可以帮助模型更好地泛化,并减少过拟合的风险。同时,这也使得网络更加高效,因为许多神经元在某一时刻可能处于非激活状态(输出为0),从而节省了计算资源。

  3. 缓解梯度消失问题:在深度神经网络中,当使用像sigmoidtanh这样的饱和非线性函数时,梯度在反向传播过程中可能会逐渐消失,导致网络难以训练。而ReLU函数在正数区域内的导数为1,这意味着梯度可以顺畅地通过该层,从而缓解了梯度消失的问题。

  4. 生物学启示:ReLU函数在某种程度上模拟了生物神经元的激活方式。在生物学中,神经元通常只在输入信号达到一定阈值时才会被激活。ReLU函数通过设定一个阈值(在本例中为0),实现了类似的行为。


版权声明:

本网仅为发布的内容提供存储空间,不对发表、转载的内容提供任何形式的保证。凡本网注明“来源:XXX网络”的作品,均转载自其它媒体,著作权归作者所有,商业转载请联系作者获得授权,非商业转载请注明出处。

我们尊重并感谢每一位作者,均已注明文章来源和作者。如因作品内容、版权或其它问题,请及时与我们联系,联系邮箱:809451989@qq.com,投稿邮箱:809451989@qq.com