更新時間:2022年03月03日13時59分 來源:傳智教育 瀏覽次數(shù):
根據(jù)反向傳播算法和鏈?zhǔn)椒▌t, 梯度的計算可以簡化為以下公式:
其中sigmoid的導(dǎo)數(shù)值域是固定的, 在[0, 0.25]之間, 而一旦公式中的w也小于1, 那么通過這樣的公式連乘后, 最終的梯度就會變得非常非常小, 這種現(xiàn)象稱作梯度消失. 反之, 如果我們?nèi)藶榈脑龃體的值, 使其大于1, 那么連乘夠就可能造成梯度過大, 稱作梯度爆炸。
如果在訓(xùn)練過程中發(fā)生了梯度消失,權(quán)重?zé)o法被更新,最終導(dǎo)致訓(xùn)練失敗; 梯度爆炸所帶來的梯度過大,大幅度更新網(wǎng)絡(luò)參數(shù),在極端情況下,結(jié)果會溢出(NaN值)。