そもそもなぜ事前学習（Pre-training）が要るのか？

olanleed https://blog.hatena.ne.jp/olanleed/ もちもちしている https://olanleed.hatenablog.com/ はじめにこの記事では，ニューラルネットワークを乱数初期化のまま学習させたときに発生する「初期化の罠」を整理し，その回避策としての事前学習を原理から紹介します．Transformer や ResNet がどうして安定的に学習できるのか．最新の理論をもとに掘り下げながら，「事前学習モデルを微調整するのが一番コスパが良い理由」を示したいと思います． 1. いきなり Fine‑tune はダメ？深層モデルの損失関数は高次元かつ非凸ですが，実際には Transformer や ResNet がサクッと収束するケースのほうが多いです．ところが，小規模データをゼロから Transformer で F… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Folanleed.hatenablog.com%2Fentry%2F2025%2F06%2F28%2F173851" title="そもそもなぜ事前学習（Pre-training）が要るのか？ - もちもちしている" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/o/olanleed/20250627/20250627202225.jpg Hatena Blog https://hatena.blog 2025-06-28 17:38:51 そもそもなぜ事前学習（Pre-training）が要るのか？ rich https://olanleed.hatenablog.com/entry/2025/06/28/173851 1.0 100%