LLMについて学び直す3週間

yasagurenlp https://blog.hatena.ne.jp/yasagurenlp/ 英語帝国を打倒しよう https://yasagurenlp.hateblo.jp/ 週３日ぐらい取れそうなので、一日１つぐらいでやっていきたいとりあえず作ってみる→ LLM構築タイムアタック - yasagurenlp’s diary transformerの並列計算について。何をどう並列化してるんだっけ -> 入力と出力から辿るtransformer(計算量等) - yasagurenlp’s diary hfのgenerate関数、train関数の引数全部読んでみたモデルごとにクラスが分かれてるけど、これが何してるか。headとか云々とかもデコーダーのbackwardの仕組みよく分かってない気がする。とりあえず、decoder-baseモデルをpytorchで書いて… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fyasagurenlp.hateblo.jp%2Fentry%2F2023%2F11%2F01%2F192307" title="LLMについて学び直す3週間 - 英語帝国を打倒しよう" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2023-11-01 19:23:07 LLMについて学び直す3週間 rich https://yasagurenlp.hateblo.jp/entry/2023/11/01/192307 1.0 100%