首页
题库
面试
求职
学习
竞赛
More+
所有博客
搜索面经/职位/试题/公司
搜索
我要招人
去企业版
登录 / 注册
首页
>
试题广场
>
BatchNormalization的作用
[问答题]
Batch
Normalization的作用
查看答案及解析
添加笔记
求解答(0)
邀请回答
收藏(123)
分享
纠错
3个回答
添加回答
3
tring
因为神经网路每层的权重参数在变化,每层的输入数据的分布在变化,让每一层去拟合输入的分布就容易过拟合且学习率不能太高;BN就是就是让每一层去自适应拟合自己的输入分布,使得每一层比较独立;做法就是把数据标准化为0均值1方差,然后设置2个参数控制均值和方差,让每一层自己去学习这两个参数
发表于 2019-10-21 12:25:06
回复(0)
1
Chia880520
BN可以解决梯度消失的问题假设激活函数为sigmoid.
al=sigmoid(hl)=sigmoid(al−1∗wl)al=sigmoid(hl)=sigmoid(al−1∗wl)
因为在反向传播中:
∂g∂w=∂g∂al∗∂al∂hl∗∂hl∂w=∂g∂al∗∂al∂hl∗∂hl∂al−1∗∂al−1∂hl−1∗∂hl−1∂w=...∂g∂w=∂g∂al∗∂al∂hl∗∂hl∂w=∂g∂al∗∂al∂hl∗∂hl∂al−1∗∂al−1∂hl−1∗∂hl−1∂w=...
如果hlhl非常大,根据sigmoid图像的特点,在两边值的导数几乎为0,只有中间y轴附近值导数值比较大。所以,经过若干次链式求导,最终∂g∂w∂g∂w接近为0,这就是梯度消失。
如果经过了Batch Normalization,可以使得每一层的hh的均值为0,标准差为1,也就是数据集中在y轴附近,这样就使得梯度比较大,解决了梯度消失的问题
发表于 2019-10-21 17:20:47
回复(0)
0
努力的小鱼
1.加速梯度下降的收敛速度
2.控制过拟合,可以少用或者不用dropout和正则化
3.降低网络对初始化权重的不敏感
4.允许使用较大的学习率
发表于 2020-07-10 21:23:07
回复(0)
这道题你会答吗?花几分钟告诉大家答案吧!
提交观点
问题信息
上传者:
小小
难度:
3条回答
123收藏
2130浏览
热门推荐
相关试题
下面两个传送指令语句中源操作数寻址...
编译和体系结构
评论
(1)
小O的整数操作
贪心
OPPO
基础数学
评论
(1)
设主存容量为256MB,外存容量为...
操作系统
评论
(1)
执行以下程序,输出结果为() le...
Javascript
评论
(1)
在部署大型模型时,模型量化技术的主...
大模型开发
评论
(1)
扫描二维码,关注牛客网
意见反馈
下载牛客APP,随时随地刷题