OpenVINO Model ServerをWindowsネイティブ環境のNPUでLLM推論してみた！

ueponx https://blog.hatena.ne.jp/ueponx/ uepon日々の備忘録 https://uepon.hatenadiary.com/ AI LLM python PowerShell コンピュータ 3月はDELLのアンバサダー・プログラムでIntel Core Ultra 7 268V搭載のPCをお借りしていましたが、せっかくNPUがあるのにあまり活用できていないなーと思っていました。ローカルLLMは、普段llama.cpp、Ollama、LM Studioなどで動かしていますが、これらのターゲットは基本的にCPU/GPUなので、NPUを直接使うことができません。NPUを使用するには、モデルを最適化して動かす必要があります。今回は OpenVINO Model Server（以下OVMS）という仕組みを使って、WindowsネイティブでNPU上でLLMを推論させるところまでやってみま… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fuepon.hatenadiary.com%2Fentry%2F2026%2F03%2F30%2F160249" title="OpenVINO Model ServerをWindowsネイティブ環境のNPUでLLM推論してみた！ - uepon日々の備忘録" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn-ak.f.st-hatena.com/images/fotolife/u/ueponx/20260330/20260330155108.png Hatena Blog https://hatena.blog 2026-03-30 16:02:49 OpenVINO Model ServerをWindowsネイティブ環境のNPUでLLM推論してみた！ rich https://uepon.hatenadiary.com/entry/2026/03/30/160249 1.0 100%