Verificador de Vendedor K2: Una Herramienta Práctica para Evaluar las APIs de Kimi K2
Verificador de Vendedor K2: Una Herramienta Práctica para Evaluar las APIs de Kimi K2
Kimi K2 es una plataforma de modelos de lenguaje grande recién lanzada que promete diálogos "agentes" de alta calidad a través de potentes capacidades de llamada a herramientas. Sin embargo, como cualquier producto comercial de IA, la capacidad práctica de K2 para disparar y analizar llamadas a herramientas varía de manera extrema entre los proveedores.
El Verificador de Vendedor K2 resuelve este mismo problema ofreciendo un punto de referencia sólido y de código abierto que mide tanto la precisión como la exactitud de los esquemas para cualquier implementación de terceros.
Por qué se necesita una herramienta de evaluación
- La fiabilidad de la llamada a herramientas es crucial – En los flujos de trabajo agónicos, una llamada perdida o malformada puede romper todo el flujo.
- Desviación del proveedor – Diferentes soluciones de alojamiento (p. ej., Fireworks, vLLM, SGLang) pueden diferir en latencia, costo y versiones internas del motor.
- Transparencia de código abierto – Los desarrolladores pueden verificar resultados en lugar de confiar en cifras proporcionadas por el proveedor.
El verificador cubre ese vacío con una utilidad de línea de comandos que:
- Carga un conjunto de datos curado con más de 4.000 solicitudes de llamada a herramientas.
- Envía solicitudes concurrentes a cualquier proveedor.
- Captura el
finish_reasondel modelo y la carga JSON. - Calcula tool_call_f1 y schema_accuracy.
- Genera un resumen limpio en CSV o JSON.
Funciones Principales
| Función | Descripción |
|---|---|
| Evaluación por lotes | Ejecutar más de 4 000 solicitudes automáticamente, concurrencia configurable. |
| Suite de Métricas | Similitud de disparo de llamada a herramienta, validez de esquema, puntuaciones generales. |
| Comparación entre Proveedores | Tablas comparativas lado a lado para docenas de APIs (Moonshot, Fireworks, VLLM, etc.). |
| Codificación Guiada | Impone el esquema JSON correcto mediante prompts del modelo – útil para proveedores. |
| Extensible | Importar conjuntos de datos personalizados, cambiar base URL, añadir cargas personalizadas. |
| Código abierto | Todo el código en GitHub bajo licencia MIT. |
Empezando
- Clonar el Repositorio
git clone https://github.com/MoonshotAI/K2-Vendor-Verifier.git cd K2-Vendor-Verifier - Instalar Dependencias (requiere Python 3.9+ y
uv)uv sync - Ejecutar el Benchmark – Reemplaza
YOUR_API_KEYy el punto final del proveedor.python tool_calls_eval.py samples.jsonl \ --model kimi-k2-0905-preview \ --base-url https://api.moonshot.cn/v1 \ --api-key YOUR_API_KEY \ --concurrency 5 \ --output results.jsonl \ --summary summary.json - Ver Resultados –
summary.jsoncontiene métricas generales;results.jsonldesglosa cada solicitud.
Consejo: Para proveedores basados en OpenRouter usa la bandera
--extra-bodypara filtrar la lista de proveedores.
Métricas de Evaluación Explicadas
| Métrica | Fórmula | Qué Captura |
|---|---|---|
| tool_call_precision | TP / (TP + FP) | Cuán a menudo una herramienta llamada fue realmente necesaria |
| tool_call_recall | TP / (TP + FN) | Cuántas llamadas necesarias activó el modelo |
| tool_call_f1 | 2 × precisión × recall / (precisión + recall) | Equilibrio entre precisión y recall |
| schema_accuracy | successful_calls / total_tool_calls | Solo cargas JSON válidas |
El proyecto establece un punto de referencia: tool_call_f1 > 73 % para el modelo kimi‑k2‑thinking y > 80 % para el kimi‑k2‑0905‑preview. Si tu proveedor queda por debajo, el verificador resalta posibles problemas de precisión o esquema.
Orientación Específica por Proveedor
- Verificación de Versión – Utiliza la versión de API mínima recomendada (p. ej.,
vllm v0.11.0para el benchmark 0905). Las implementaciones antiguas suelen formatear mal el JSON. - Normalización de ID de Herramienta – Renombra IDs heredados a
functions.func_name:idxpara coincidir con las expectativas de Kimi K2. - Codificación Guiada – Añade prompts explícitos que obliguen al modelo a adherirse a tu esquema. El repositorio incluye un archivo JSON de esquema de ayuda.
Contribución y Comunidad
Se aceptan contribuciones:
- Añadir nuevos benchmarks de proveedores.
- Mejorar los cálculos de métricas.
- Crear visualizaciones mejores para el resumen.
Los problemas abiertos y las pull requests se siguen en GitHub. Para retroalimentación rápida, los miembros de la comunidad pueden unirse al canal de Discord del proyecto (enlace en la descripción del repositorio).
Conclusión
El Verificador de Vendedor K2 es más que una curiosidad: es una herramienta de auditoría crítica para cualquiera que implemente o use Kimi K2 en producción. Al cuantificar tanto la calidad del disparo como la del esquema de las llamadas a herramientas, brinda a los desarrolladores una ruta clara y práctica para mejorar la confiabilidad y la experiencia de usuario.
Pruébalo hoy, compara tus resultados con las tablas publicadas y ayuda a impulsar el ecosistema Kimi K2 hacia un rendimiento estandarizado y confiable de las llamadas a herramientas.