llama.cpp各種モデル18パターンの速度比較（Llama 3.1/Gemma 2/Phi-3…, GPU/x86

takahashii https://blog.hatena.ne.jp/takahashii/ Vポイントマーケティング｜TECH LABの Tech Blog https://techblog.vpoint.co.jp/ LLM インフラストラクチャはじめにこんにちは。テックラボの高橋です。本記事ではllama.cppで実行可能なモデルを片っ端から実行して良さげなモデルを探していきます。なお、llama.cppの詳細やパラメータ設定については以下の記事をご参照ください。 techblog.cccmkhd.co.jp モデルは主に日本語対応モデルのリーダーボードである Nejumi-LLM-3からチョイスしていきます。 wandb.ai 各パラメータ毎にコマンド一発しか確認していないので、詳細な性能を知りたい方は各々の環境で試していただくか、下記リンク先のベンチマークやllama.cppのissueを参考にしてください。 openbe… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Ftechblog.vpoint.co.jp%2Fentry%2F2024%2F08%2F08%2F183026" title="llama.cpp各種モデル18パターンの速度比較（Llama 3.1/Gemma 2/Phi-3…, GPU/x86_64/arm64）※おすすめモデル有り - Vポイントマーケティング｜TECH LABの Tech Blog" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/D/DBMK_Lab/20240809/20240809100108.png Hatena Blog https://hatena.blog 2024-08-08 18:30:26 llama.cpp各種モデル18パターンの速度比較（Llama 3.1/Gemma 2/Phi-3…, GPU/x86_64/arm64）※おすすめモデル有り rich https://techblog.vpoint.co.jp/entry/2024/08/08/183026 1.0 100%