Dale ojos a Claude: Cómo usar /watch para analizar cualquier video | AIBit-Descubre proyectos de código abierto

A pesar de todo el poder de los LLM modernos, históricamente han sido ciegos ante una de nuestras fuentes de información más comunes: el video. Si querías saber qué pasaba en un tutorial de YouTube de 20 minutos o en la grabación de pantalla de un error, tenías que verlo tú mismo o confiar en transcripciones automáticas e imprecisas que omiten todo el contexto visual.

claude-video cambia esto al darle a Claude una nueva capacidad: el comando /watch. Esta herramienta cierra la brecha entre los archivos de video sin procesar y el motor de razonamiento multimodal de Claude.

Cómo funciona: Bajo el capó

La habilidad /watch es una capa de orquestación sofisticada que automatiza el trabajo pesado del procesamiento de video:

Ingesta: Utiliza yt-dlp para obtener contenido de prácticamente cualquier fuente (YouTube, TikTok, Loom, X, etc.) o acepta rutas de archivos locales.
Extracción de fotogramas: Utiliza ffmpeg para muestrear fotogramas del video. Crucialmente, utiliza un presupuesto de fotogramas auto-escalado basado en la duración del video. Por ejemplo, un clip de 30 segundos obtiene ~30 fotogramas, mientras que un video de 10 minutos obtiene un escaneo disperso de 100 fotogramas para mantener eficiente el uso de tokens.
Transcripción: Prioriza los subtítulos nativos (gratuitos y rápidos). Si no existen, recurre a Whisper (vía Groq u OpenAI) para generar una transcripción con marcas de tiempo.
Síntesis multimodal: Empaqueta los fotogramas y la transcripción en una ventana de contexto que Claude puede "ver" y "oír", permitiéndole responder preguntas basadas en los datos visuales y auditivos reales.

Por qué los desarrolladores necesitan esto

Más allá de simplemente resumir videos, esta herramienta resuelve varios flujos de trabajo de desarrolladores con alta fricción:

Reproducción de errores: En lugar de pedirle a un usuario que describa un error, pídele que envíe una grabación de pantalla. Ejecuta /watch bug-repro.mov "¿Cuál es el estado de la interfaz de usuario cuando ocurre el fallo?" y deja que Claude identifique el fotograma exacto donde se activa el error.
Ingeniería de contenido: Analiza ganchos virales o creatividades publicitarias de la competencia. Puedes preguntar: "¿Qué hay en pantalla durante los primeros 3 segundos de este video?" para realizar ingeniería inversa a estructuras de contenido exitosas.
Investigación profunda: En lugar de ver una charla técnica de 30 minutos a velocidad 2x, usa /watch para extraer los momentos clave, los fragmentos de código que aparecen en pantalla y los argumentos principales del ponente.

Primeros pasos

La instalación es flexible dependiendo de tu entorno:

Para usuarios de Claude Code:

/plugin marketplace add bradautomates/claude-video
/plugin install watch@claude-video

Para usuarios web: Descarga el archivo watch.skill desde la página de lanzamientos en GitHub y añádelo a través de Settings → Capabilities → Skills. Asegúrate de que "Code execution" esté habilitado.

Consejos profesionales para la eficiencia

Debido a que los tokens de imagen son costosos, la herramienta incluye un "modo enfocado" para ahorrar tu presupuesto:

Usa las etiquetas --start y --end: Si solo te interesa un segmento específico, defínelo. Esto aumenta la densidad de fotogramas para esa ventana específica, dándote una precisión mucho mayor para esa sección sin desperdiciar tokens en el resto del video.
Ajusta la resolución: Si el video contiene texto pequeño (como una terminal o un editor de código), usa --resolution 1024 para asegurar que Claude pueda leer los detalles en pantalla con claridad.
Backend de Whisper: Si estás procesando muchos videos, usa la API de Groq para Whisper; es significativamente más rápida y barata que la ruta estándar de OpenAI.

Limitaciones a tener en cuenta

La regla de los 10 minutos: Aunque puede procesar videos más largos, la precisión es mayor en videos de menos de 10 minutos. Para contenido más largo, usa las etiquetas --start y --end para dividir el análisis en fragmentos manejables.
Sin autenticación: Esta herramienta no maneja transmisiones de video privadas o autenticadas. Funciona mejor con URLs públicas y archivos locales.

Al convertir el video en una fuente de datos consultable y en la que se pueden realizar búsquedas, /watch transforma a Claude de un asistente basado en texto a un verdadero analista multimodal. Ya sea que estés depurando o investigando, es una adición imprescindible para tu kit de herramientas de IA.

Fuente

bradautomates/claude-video: Dale a Claude la capacidad de ver cualquier video. /watch descarga, extrae fotogramas, transcribe y se lo entrega todo a Claude.