Donnez des yeux à Claude : Comment utiliser /watch pour analyser n'importe quelle vidéo

Malgré toute la puissance des LLM modernes, ils ont historiquement été aveugles à l'une de nos sources d'information les plus courantes : la vidéo. Si vous vouliez savoir ce qui se passait dans un tutoriel YouTube de 20 minutes ou un enregistrement d'écran d'un bug, vous deviez le regarder vous-même ou vous fier à des transcriptions générées automatiquement et imprécises qui omettent tout le contexte visuel.

claude-video change la donne en dotant Claude d'une nouvelle capacité : la commande /watch. Cet outil comble le fossé entre les fichiers vidéo bruts et le moteur de raisonnement multimodal de Claude.

Comment ça marche : Sous le capot

La compétence /watch est une couche d'orchestration sophistiquée qui automatise le travail complexe du traitement vidéo :

Ingestion : Elle utilise yt-dlp pour récupérer du contenu de pratiquement n'importe quelle source (YouTube, TikTok, Loom, X, etc.) ou accepte des chemins de fichiers locaux.
Extraction d'images : Elle utilise ffmpeg pour échantillonner des images de la vidéo. Crucialement, elle utilise un budget d'images auto-adaptatif basé sur la durée de la vidéo. Par exemple, un clip de 30 secondes obtient environ 30 images, tandis qu'une vidéo de 10 minutes bénéficie d'un balayage clairsemé de 100 images pour maintenir une utilisation efficace des jetons (tokens).
Transcription : Elle donne la priorité aux sous-titres natifs (gratuits et rapides). S'il n'en existe pas, elle se rabat sur Whisper (via Groq ou OpenAI) pour générer une transcription horodatée.
Synthèse multimodale : Elle regroupe les images et la transcription dans une fenêtre de contexte que Claude peut « voir » et « entendre », lui permettant de répondre à des questions basées sur les données visuelles et auditives réelles.

Pourquoi les développeurs en ont besoin

Au-delà de la simple synthèse de vidéos, cet outil résout plusieurs flux de travail de développeurs à forte friction :

Reproduction de bugs : Au lieu de demander à un utilisateur de décrire un bug, demandez-lui d'envoyer un enregistrement d'écran. Exécutez /watch bug-repro.mov "Quel est l'état de l'interface utilisateur au moment du plantage ?" et laissez Claude identifier l'image exacte où l'erreur se déclenche.
Ingénierie de contenu : Analysez les accroches virales ou les créations publicitaires des concurrents. Vous pouvez demander : « Qu'est-ce qui s'affiche à l'écran pendant les 3 premières secondes de cette vidéo ? » pour rétro-concevoir des structures de contenu réussies.
Recherche approfondie : Au lieu de regarder une conférence technique de 30 minutes en vitesse 2x, utilisez /watch pour extraire les moments clés, les extraits de code affichés à l'écran et les arguments principaux avancés par l'intervenant.

Prise en main

L'installation est flexible selon votre environnement :

Pour les utilisateurs de Claude Code :

/plugin marketplace add bradautomates/claude-video
/plugin install watch@claude-video

Pour les utilisateurs web : Téléchargez le fichier watch.skill depuis la page des versions GitHub et ajoutez-le via Settings → Capabilities → Skills. Assurez-vous que l'option « Code execution » est activée.

Conseils de pro pour l'efficacité

Parce que les jetons d'image sont coûteux, l'outil inclut un « mode focalisé » pour préserver votre budget :

Utilisez les drapeaux --start et --end : Si vous ne vous intéressez qu'à un segment spécifique, définissez-le. Cela augmente la densité d'images pour cette fenêtre spécifique, vous offrant une précision bien plus élevée pour cette section sans gaspiller de jetons sur le reste de la vidéo.
Ajustez la résolution : Si la vidéo contient du texte de petite taille (comme un terminal ou un éditeur de code), utilisez --resolution 1024 pour garantir que Claude puisse lire clairement les détails à l'écran.
Backend Whisper : Si vous traitez de nombreuses vidéos, utilisez l'API Groq pour Whisper ; elle est nettement plus rapide et moins chère que le chemin standard d'OpenAI.

Limites à garder à l'esprit

La règle des 10 minutes : Bien qu'il puisse traiter des vidéos plus longues, la précision est maximale en dessous de 10 minutes. Pour un contenu plus long, utilisez les drapeaux --start et --end pour diviser l'analyse en morceaux gérables.
Pas d'authentification : Cet outil ne gère pas les flux vidéo privés et authentifiés. Il fonctionne mieux avec des URL publiques et des fichiers locaux.

En transformant la vidéo en une source de données consultable et interrogeable, /watch transforme Claude d'un assistant textuel en un véritable analyste multimodal. Que vous fassiez du débogage ou de la recherche, c'est un ajout indispensable à votre boîte à outils IA.

Source

bradautomates/claude-video: Give Claude the ability to watch any video. /watch downloads, extracts frames, transcribes, hands it all to Claude.