勾配消失とReLU：深いネットワークが学習できなかった理由

Hal40n https://blog.hatena.ne.jp/Hal40n/ ゼロからAI理論を再構築する https://serenewealth.net/ 機械学習前回、層を重ねると抽象度の異なる特徴を段階的に抽出できるという話を書きました。ただ、2010年代初頭まで、ネットワークを深くすると学習がうまくいかないという問題がありました。理論的には深いほうがいいのに、実際に深くすると性能が出ない。今回はその原因である勾配消失問題と、解決策として普及したReLU、そして重みの初期化について書きます。シグモイドの微分が小さすぎる深層ネットワークの学習では、出力側で計算した誤差を連鎖律で入力側に伝播させます。ここでシグモイド関数を活性化関数に使っていると問題が起きます。シグモイド関数の微分値は最大でも0.25です。層を1つ遡るたびに勾配にこの0.25以下… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fserenewealth.net%2Fentry%2F2026%2F03%2F07%2F180000" title="勾配消失とReLU：深いネットワークが学習できなかった理由 - ゼロからAI理論を再構築する" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2026-03-07 18:00:00 勾配消失とReLU：深いネットワークが学習できなかった理由 rich https://serenewealth.net/entry/2026/03/07/180000 1.0 100%