K2 Vendor Verifier: Kimi K2 APIの評価に役立つ実践的ツール
K2 Vendor Verifier: Kimi K2 APIの評価に役立つ実践的ツール
Kimi K2は、新しくリリースされた大規模言語モデルプラットフォームで、高品質な「エージェント型」対話を強力なツールコール機能によって提供すると約束しています。しかし、商用AI製品と同様に、K2がツールコールを発火させて解析できる実際の能力は、プロバイダーによって大きく異なります。K2 Vendor Verifier は、サードパーティデプロイメントの 精度 と スキーマ精度 を測定する堅牢なオープンソースベンチマークを提供し、この課題を解決します。
評価ツールが必要な理由
- ツールコールの信頼性は重要です – エージェントワークフローでは、呼び出しが1件欠落したり不正にフォーマットされると、ワークフロー全体を壊してしまうことがあります。
- ベンダーの漂移 – Fireworks、vLLM、SGLang などのホスティングソリューションは、レイテンシ、コスト、内部エンジンバージョンで差異が生じる可能性があります。
- オープンソースの透明性 – 開発者はベンダーが提供する数値に頼るのではなく、結果を検証できます。
検証器は、コマンドライン ユーティリティでこのギャップを埋めます:
- 4,000件以上のツールコールプロンプトを収集したデータセットを読み込みます。
- いずれのプロバイダーにも同時にリクエストを送信します。
- モデルの
finish_reasonと JSON ペイロードを取得します。 - tool_call_f1 と schema_accuracy を算出します。
- クリーンな CSV または JSON のサマリーを生成します。
主な機能
| 機能 | 説明 |
|---|---|
| バッチ評価 | 4k+ プロンプトを自動実行し、並列度を設定可能です。 |
| メトリックススイート | ツールコールトリガー類似度、スキーマ妥当性、総合スコアを測定します。 |
| クロスベンダ比較 | Moonshot、Fireworks、VLLM など数十APIのサイドバイサイドテーブルを作成。 |
| ガイド付きエンコーディング | モデルプロンプトで正しい JSON スキーマを強制し、ベンダーに有用。 |
| 拡張可能 | カスタムデータセットをインポート、ベースURLを変更、カスタムペイロードを追加可能。 |
| オープンソース | MITライセンスで GitHub 上に全コード公開。 |
はじめに
- レポジトリをクローンする
git clone https://github.com/MoonshotAI/K2-Vendor-Verifier.git cd K2-Vendor-Verifier - 依存関係を構築(Python 3.9+および
uvが必要)uv sync - ベンチマークを実行 –
YOUR_API_KEYとプロバイダーのエンドポイントを置き換えて実行。python tool_calls_eval.py samples.jsonl \ --model kimi-k2-0905-preview \ --base-url https://api.moonshot.cn/v1 \ --api-key YOUR_API_KEY \ --concurrency 5 \ --output results.jsonl \ --summary summary.json - 結果を確認 –
summary.jsonに総合評価指標、results.jsonlに各リクエストの詳細が出力されます。
Tip: OpenRouterベースのベンダーの場合は、
--extra-bodyフラグを使用してプロバイダーリストをフィルタリングします。
評価メトリクスの解説
| メトリクス | 式 | 何を捉えるか |
|---|---|---|
| tool_call_precision | TP / (TP + FP) | 呼び出されたツールが本当に必要だった頻度 |
| tool_call_recall | TP / (TP + FN) | 必要な呼び出しをモデルがいくつトリガーしたか |
| tool_call_f1 | 2 × precision × recall / (precision + recall) | 精度と再現率のバランス |
| schema_accuracy | successful_calls / total_tool_calls | 有効な JSON ペイロードのみ |
プロジェクトはベンチマークを設定しています:kimi‑k2‑thinking モデルで tool_call_f1 > 73 %、kimi‑k2‑0905‑preview で > 80 %。プロバイダーがこの値を下回る場合、検証器は潜在的な精度やスキーマ上の問題を指摘します。
ベンダー固有のガイダンス
- バージョンチェック – 推奨最低APIバージョン(例:0905ベンチマークの場合は
vllm v0.11.0)を使用します。古い実装は JSON を不正にフォーマットすることがよくあります。 - ツールIDの正規化 – 旧IDを
functions.func_name:idxにリネームして Kimi K2 の期待に合わせます。 - ガイド付きエンコーディング – スキーマへの準拠を強制する明示的プロンプトを追加します。リポジトリにヘルパーの JSON スキーマファイルが含まれています。
コントリビューション & コミュニティ
貢献を歓迎します:
- 新しいベンダーベンチマークを追加
- メトリック計算を改善
- サマリービジュアライゼーションを向上
GitHub 上で Issue や Pull Request を追跡しています。迅速なフィードバックを得るために、Discord コミュニティへ参加してください(リポジトリ説明リンク参照)。
まとめ
K2 Vendor Verifier は好奇心を満たすだけではなく、Kimi K2 を本番で導入または使用する全ての人にとって 重要な監査ツール です。ツールコールの トリガー と スキーマ の品質を定量化することで、開発者は信頼性とユーザー体験を向上させる明確で実行可能な道筋を得られます。
本日から実行し、公開済み表と比較して結果を確かめ、Kimi K2 エコシステムを標準化され信頼できるツール呼び出しパフォーマンスへと押し上げる手助けをしてください。