llama.cppでLLMを量子化し、ollamaで動かせた！これで勝つる！（cyberagent/calm2-7b-chat量子化記事の再現編）

nikkie-ftnext https://blog.hatena.ne.jp/nikkie-ftnext/ nikkie-ftnextの日記 https://nikkie-ftnext.hatenablog.com/ LLM はじめに愛衣ちゃん大勝利〜！！ nikkieです。世はまさに大規模言語モデル1時代！ ollamaを使ってLLMをもふもふ手元のPC（CPUのみ）でも動かしています2が、その秘密は量子化。今回は、今まで利用するだけだった量子化を自分でもやってみます目次はじめに目次「非力なパソコンでもLLMを動かしたい!? llama.cppの紹介」 cyberagent/calm2-7b-chatをq5_k_mに量子化環境構築 1. Hugging Faceに置いてあるモデルをGGUF形式に変換 2. GGUF形式から量子化 3. 量子化したモデルをllama.cppで動かす量子化したモデル… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fnikkie-ftnext.hatenablog.com%2Fentry%2Fllm-quantize-first-step-cyberagent-calm2-7b-chat" title="llama.cppでLLMを量子化し、ollamaで動かせた！これで勝つる！（cyberagent/calm2-7b-chat量子化記事の再現編） - nikkie-ftnextの日記" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> Hatena Blog https://hatena.blog 2024-05-20 08:02:00 llama.cppでLLMを量子化し、ollamaで動かせた！これで勝つる！（cyberagent/calm2-7b-chat量子化記事の再現編） rich https://nikkie-ftnext.hatenablog.com/entry/llm-quantize-first-step-cyberagent-calm2-7b-chat 1.0 100%