您的位置：首页 > 房产 > 家装 > 互联网营销师报考费用_ppt模板大全软件下载_网站推广排名_武汉疫情最新情况

互联网营销师报考费用_ppt模板大全软件下载_网站推广排名_武汉疫情最新情况

2025/4/18 23:56:36 来源：https://blog.csdn.net/yuri5151/article/details/146156005 浏览: 次关键词：互联网营销师报考费用_ppt模板大全软件下载_网站推广排名_武汉疫情最新情况

互联网营销师报考费用_ppt模板大全软件下载_网站推广排名_武汉疫情最新情况

数值稳定性

神经网络的梯度

请添加图片描述
NT：里面所有的h都是向量，向量关于向量的导数是一个矩阵
所以这里要进行d-t次的矩阵乘法
多次的矩阵乘法又会带来两个问题：梯度爆炸、梯度消失

例子中的数字能表示，但是也说明了存在浮点问题（有范围限制）

例子：MLP

MLP：多层感知机
对角矩阵（diagonal matrix）是一个主对角线之外的元素皆为0的矩阵，常写为diag(a1,a2,…an)
diag*W：把diag和W分开看。这就是个链式求导，diag是n维度的relu向量对n维度的relu的输入的求导，向量对自身求导就是对角矩阵

梯度爆炸

当W元素值>1 & 层数很深时，连乘会导致梯度爆炸
在这里插入图片描述

梯度爆炸的问题

请添加图片描述

梯度消失

请添加图片描述
如上图例子，当激活函数的输入稍微大一点时，他的导数就趋近于0，连续n个接近0的数相乘，最后的梯度就接近0，梯度就消失了

存在的问题

梯度值变为0
对16位浮点数尤为严重
训练没有进展
不管如何选择学习率
对于底部层尤为严重
- 仅仅顶部曾训练的较好
- 无法让神经网络更深

让训练更稳定

目标：让梯度值在合理的范围内
常见方法：让乘法变加法（如ResNet，LSTM）
归一化：梯度归一化，梯度裁剪
合理的权重初始化和激活函数（本节重点）
裁剪：clipping

权重初始化

让每层的方差是一个函数

将每层的输出和梯度都看作随机变量
让他们的均值和方差都保持一致
如：

随机初始化

请添加图片描述
要使输出和权重的方差都为常数的话，该如何处理？

例：MLP
- 假设
  1. 权重使独立同分布，均值为0
  2. 假设输入与权重是相互独立的
    
    求解：
    
    第二行，因为独立同分布均值=0，所以第二项的累加=0
    第三行，期望可以累加，所以可以写进去
    第四行1，因为第三行两项均值=0，所以计算等价于方差
    第四行2，第一项代换，第二项就是输入的方差
    如果要推出输入的方差和输出的方差一样，那么要推出nr项=1（n是输入的维度，r是输入的方差）

请添加图片描述

请添加图片描述
rt：第t层权重的方差

Xavier是常用的权重初始化的方法
权重初始化时的方差是根据输入和输出维度来定的

激活函数

请添加图片描述

检查查用激活函数

在x附近，tanh和relu近似到f(x)=x，满足之前的要求
但是sigmoid不满足，可以进行调整，如上

版权声明:

本网仅为发布的内容提供存储空间，不对发表、转载的内容提供任何形式的保证。凡本网注明“来源：XXX网络”的作品，均转载自其它媒体，著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处。

我们尊重并感谢每一位作者，均已注明文章来源和作者。如因作品内容、版权或其它问题，请及时与我们联系，联系邮箱：809451989@qq.com，投稿邮箱：809451989@qq.com

最新新闻

热搜词

公司网站打开错误怎么回事？如何找到原因并修复一些命令【C++ SIMD】第1篇：SIMD基础概念与开发环境配置《C Primer Plus 中文版 (第6版)》2020版最新修订版PDF下载一图读懂：不同人群预防新型冠状病毒感染口罩选择与使用技术指引 AMS1117-LDO（线性稳压器）稳压电路

声明：本站所有新闻及新闻图片来源于其他网站，如有侵权，请及时联系我们！

客户服务 | 关于我们 | 版权声明

版权所有：

Copyright 2024 尧图网 All Rights Reserved.QQ:809451989