重点介绍一下Xavier和Kaiming初始化:
为了使得网络中信息更好的流动,每一层输出的方差应该尽量相等。
Xavier初始化的问题在于,它只适用于线性激活函数,但实际上,对于深层神经网络来说,线性激活函数是没有价值,神经网络需要非线性激活函数(例如ReLU)来构建复杂网络。
前向传播时每层的方差都是1 反向传播时梯度的方差都是1
前向传播时每层的方差都是1
反向传播时梯度的方差都是1
$n_{in}$表示每层输入的神经元数量