LLMの品質を可視化！Langfuseで実現する自動評価システムの構築

swx-tomoya-ikeda https://blog.hatena.ne.jp/swx-tomoya-ikeda/ サーバーワークスエンジニアブログ https://blog.serverworks.co.jp/ 生成AI はじめに前回の記事では、LangfuseをAWS上にデプロイしてLLMアプリケーションのトレースを可視化する方法をご紹介しました。トレースによって「何が起きているか」は見えるようになりましたが、これだけでは「その回答は良いのか悪いのか」を判断することはできません。そこで今回は、Langfuseの「評価」機能を使って、LLMの回答品質を自動で数値化し、ダッシュボードでリアルタイムに可視化する方法をご紹介します。前提条件 Langfuse環境 ( 前回の記事でデプロイ済み ) 観測対象のRAGシステム Python 3.9以上（評価スクリプト実行用） OpenAI APIキー（自動評価で使用… 190 <iframe src="https://hatenablog-parts.com/embed?url=https%3A%2F%2Fblog.serverworks.co.jp%2F2025%2F12%2F09%2F173103" title="LLMの品質を可視化！Langfuseで実現する自動評価システムの構築 - サーバーワークスエンジニアブログ" class="embed-card embed-blogcard" scrolling="no" frameborder="0" style="display: block; width: 100%; height: 190px; max-width: 500px; margin: 10px 0px;"></iframe> https://cdn.user.blog.st-hatena.com/default_entry_og_image/155844699/1589415473304665 Hatena Blog https://hatena.blog 2025-12-09 17:31:03 LLMの品質を可視化！Langfuseで実現する自動評価システムの構築 rich https://blog.serverworks.co.jp/2025/12/09/173103 1.0 100%