サーベイ: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism

inarizuuuushi https://blog.hatena.ne.jp/inarizuuuushi/ Sabrou-mal サブロウ丸 https://inarizuuuushi.hatenablog.com/ 論文サーベイ分散深層学習 @article{shoeybi2019megatron, title={Megatron-lm: Training multi-billion parameter language models using model parallelism}, author={Shoeybi, Mohammad and Patwary, Mostofa and Puri, Raul and LeGresley, Patrick and Casper, Jared and Catanzaro, Bryan}, journal={arXiv preprint arXiv:1909.08053}, year={… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Finarizuuuushi.hatenablog.com%2Fentry%2F2022%2F06%2F08%2F090000" title="サーベイ: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism - Sabrou-mal サブロウ丸" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/i/inarizuuuushi/20220531/20220531180951.jpg Hatena Blog https://hatena.blog 2022-06-08 09:00:00 サーベイ: Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism rich https://inarizuuuushi.hatenablog.com/entry/2022/06/08/090000 1.0 100%