相关文章推荐
坚强的鸵鸟  ·  使用 Gamepad API - Web ...·  7 月前    · 
笑点低的荒野  ·  List<t>.FindIndex 方法 ...·  11 月前    · 
潇洒的伤疤  ·  ubuntu下安装openMPI - ...·  1 年前    · 

一、参数初始化分类及原理

  • 神经网络的训练过程中的参数学习是基于梯度下降法进行优化的。梯度下降法需要在开始训练时给每一个参数赋一个初始值。这个初始值的选取十分关键。一般 我们希望数据和参数的均值都为 0,输入和输出数据的方差一致。 在实际应用中,参数服从 高斯分布 或者 均匀分布 都是比较有效的初始化方式。

  • A well chosen initialization can:

    • Speed up the convergence of gradient descent
    • Increase the odds of gradient descent converging to a lower training (and generalization) error
  • Poor initialization can:
    • lead to vanishing/exploding gradients , which also slows down the optimization algorithm
  • Random initialization is used to break symmetry and make sure different hidden units can learn different things
  • 为了使得在经过多层网络后,信号不被过分放大或过分减弱,我们尽可能保持 每个神经元的 输入和输出的方差一致
    参数初始化原理

  • 高斯分布

    m e a n = 0
  • Xavier 初始化:
  • He 初始化: