llama.cpp：複雑化する量子化バリエーションの整理（2024.02現在）

sc_bakushu https://blog.hatena.ne.jp/sc_bakushu/ ローカルLLM自由帳 (Local LLM Diary) https://sc-bakushu.hatenablog.com/ https://github.com/ggerganov/llama.cpp/pull/5747 llama.cpp では最近、ikawrakow氏による量子化手法のアップデートが熱心に行われています。新しい量子化の実装が重なり個人的に分かりづらくなってきたので、簡単に整理しておこうと思います。 quantize.cppのオプションを参照すると、現在（2024.02）のGGUFバリエーションは以下のとおりです。 github.com 非量子化GGUF："F32", "F16"。量子化していない巨大なGGUF。旧量子化GGUF："Q4_0"、"Q4_1"、"Q5_0"、"Q5_1"、"Q8_… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fsc-bakushu.hatenablog.com%2Fentry%2F2024%2F02%2F26%2F062547" title="llama.cpp：複雑化する量子化バリエーションの整理（2024.02現在） - ローカルLLM自由帳 (Local LLM Diary)" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/s/sc_bakushu/20240228/20240228052943.png Hatena Blog https://hatena.blog 2024-02-26 06:25:47 llama.cpp：複雑化する量子化バリエーションの整理（2024.02現在） rich https://sc-bakushu.hatenablog.com/entry/2024/02/26/062547 1.0 100%