K2 Vendor Verifier : Un outil pratique pour évaluer les API Kimi K2
K2 Vendor Verifier : Un outil pratique pour évaluer les API Kimi K2
Kimi K2 est une plateforme de modèle de langage massif récemment publiée qui promet un dialogue « agentique » de haute qualité grâce à des capacités puissantes d'appel d'outils. Cependant, comme tout produit d'IA commercial, la capacité pratique de K2 à lancer et analyser les appels d'outils varie considérablement selon les fournisseurs. Le K2 Vendor Verifier résout ce problème précis en offrant un benchmark robuste et open-source qui mesure à la fois la précision et l'exactitude du schéma pour toute déploiement tiers.
Pourquoi un outil d'évaluation est nécessaire
- La fiabilité des appels d'outils compte – Dans les flux de travail agentiques, un appel manqué ou mal formé peut compromettre l'ensemble du flux.
- La dérive des fournisseurs – Les différentes solutions d'hébergement (par ex. Fireworks, vLLM, SGLang) peuvent diverger en terme de latence, coût et versions internes du moteur.
- Transparence open‑source – Les développeurs peuvent vérifier les résultats eux-mêmes au lieu de se fier aux chiffres fournis par les fournisseurs.
Le vérificateur comble cette lacune grâce à une utilité en ligne de commande qui :
- Charge un jeu de données trié de plus de 4 000 invites d'appels d'outils.
- Envoie des requêtes simultanées à n'importe quel fournisseur.
- Capture
finish_reasondu modèle et la charge utile JSON. - Calcule tool_call_f1 et schema_accuracy.
- Génère un résumé propre au format CSV ou JSON.
Core Features
| Feature | Description |
|---|---|
| Batch Evaluation | Exécuter plus de 4 000 invites automatiquement, concurrence configurable. |
| Metric Suite | Similarité d'activation d'appels d'outils, validité du schéma, scores globaux. |
| Cross‑Vendor Comparison | Tableaux côte à côte pour des dizaines d'API (Moonshot, Fireworks, VLLM, etc.). |
| Guided Encoding | Imposer le schéma JSON correct via des prompts du modèle – utile pour les fournisseurs. |
| Extensible | Importer des jeux de données personnalisés, modifier l'URL de base, ajouter des charges utiles personnalisées. |
| Open‑source | Tout le code sur GitHub sous licence MIT. |
Getting Started
- Cloner le dépôt
git clone https://github.com/MoonshotAI/K2-Vendor-Verifier.git cd K2-Vendor-Verifier - Installer les dépendances (exige Python 3.9+ et
uv)uv sync - Exécuter le benchmark – Remplacez
YOUR_API_KEYet le point d'accès du fournisseur.python tool_calls_eval.py samples.jsonl \ --model kimi-k2-0905-preview \ --base-url https://api.moonshot.cn/v1 \ --api-key YOUR_API_KEY \ --concurrency 5 \ --output results.jsonl \ --summary summary.json - Afficher les résultats –
summary.jsoncontient les métriques globales ;results.jsonldétaille chaque requête.
Astuce : Pour les fournisseurs basés sur OpenRouter, utilisez le drapeau
--extra-bodypour filtrer la liste des fournisseurs.
Evaluation Metrics Explained
| Metric | Formula | What It Captures |
|---|---|---|
| tool_call_precision | TP / (TP + FP) | À quelle fréquence un outil appelé était réellement nécessaire |
| tool_call_recall | TP / (TP + FN) | Combien d'appels nécessaires le modèle déclenche |
| tool_call_f1 | 2 × precision × recall / (precision + recall) | Équilibre entre précision et rappel |
| schema_accuracy | successful_calls / total_tool_calls | Uniquement les charge utiles JSON valides |
Le projet définit un benchmark : tool_call_f1 > 73 % pour le modèle kimi-k2-thinking et > 80 % pour le kimi-k2-0905-preview. Si votre fournisseur est inférieur, le vérificateur met en évidence des problèmes potentiels de précision ou de schéma.
Conseils spécifiques au fournisseur
- Vérification de version – Utilisez la version API minimum recommandée (par ex.,
vllm v0.11.0pour le benchmark 0905). Les implémentations plus anciennes formattent souvent incorrectement le JSON. - Normalisation des ID d'outil – Renommez les anciens ID en
functions.func_name:idxpour correspondre aux attentes de Kimi K2. - Encodage guidé – Ajoutez des prompts explicites qui obligent le modèle à se conformer à votre schéma. Le dépôt inclut un fichier de schéma JSON d'aide.
Contribuer & Communauté
Contributions sont les bienvenues :
- Ajouter de nouveaux benchmarks fournisseurs.
- Améliorer les calculs de métriques.
- Créer de meilleures visualisations pour le résumé.
Les problèmes ouverts et les pull requests sont suivis sur GitHub. Pour un retour rapide, les membres de la communauté peuvent rejoindre le canal Discord du projet (lien dans la description du dépôt).
Résumé final
Le K2 Vendor Verifier est plus qu'une curiosité — c'est un outil d'audit critique pour toute personne déployant ou utilisant Kimi K2 en production. En quantifiant à la fois la qualité du déclencheur et du schéma des appels d'outils, il fournit aux développeurs un chemin clair et exploitable pour améliorer la fiabilité et l'expérience utilisateur.
Essayez-le aujourd'hui, comparez vos résultats aux tableaux publiés, et contribuez à faire progresser l'écosystème Kimi K2 vers des performances d'appel d'outils standardisées et dignes de confiance.