Claudeに「目」を授ける:/watchを使ってあらゆる動画を分析する方法

動画の内容を推測するのはもうやめましょう。/watchスキルを使って、Claudeにあらゆる動画ファイルやURLをダウンロード、文字起こし、そして視覚的に分析させる方法を学びます。

現代のLLM(大規模言語モデル)は非常に強力ですが、歴史的に見て、私たちの最も一般的な情報源の一つである「動画」に対しては盲目でした。20分のYouTubeチュートリアルやバグの画面録画の内容を知りたい場合、自分で視聴するか、視覚的なコンテキストが欠落した不正確な自動生成の文字起こしに頼るしかありませんでした。

claude-videoは、Claudeに新しい機能である/watchコマンドを提供することで、この状況を変えます。このツールは、生の動画ファイルとClaudeのマルチモーダル推論エンジンの間の架け橋となります。

仕組み:その裏側

/watchスキルは、動画処理の重い作業を自動化する洗練されたオーケストレーションレイヤーです。

  1. 取り込み(Ingestion): yt-dlpを使用して、事実上あらゆるソース(YouTube、TikTok、Loom、Xなど)からコンテンツを取得するか、ローカルのファイルパスを受け取ります。
  2. フレーム抽出: ffmpegを使用して動画からフレームをサンプリングします。重要なのは、動画の長さに応じて自動スケーリングされたフレーム予算を使用することです。例えば、30秒のクリップは約30フレームを取得しますが、10分の動画はトークン使用量を効率的に保つために100フレームのまばらなスキャンを行います。
  3. 文字起こし: ネイティブのキャプション(無料で高速)を優先します。存在しない場合は、Whisper(GroqまたはOpenAI経由)にフォールバックして、タイムスタンプ付きの文字起こしを生成します。
  4. マルチモーダル統合: フレームと文字起こしを、Claudeが「見て」「聞く」ことができるコンテキストウィンドウにパッケージ化し、実際の視覚・音声データに基づいた質問への回答を可能にします。

なぜ開発者にこれが必要なのか

単なる動画の要約にとどまらず、このツールは開発者の摩擦の多いワークフローをいくつか解決します。

  • バグの再現: ユーザーにバグの説明を求める代わりに、画面録画を送ってもらいます。/watch bug-repro.mov "クラッシュが発生した時のUIの状態はどうなっていますか?"を実行すれば、Claudeにエラーがトリガーされた正確なフレームを特定させることができます。
  • コンテンツエンジニアリング: バズっているフックや競合の広告クリエイティブを分析します。「この動画の最初の3秒間に画面に映っているものは何ですか?」と尋ねることで、成功しているコンテンツ構造をリバースエンジニアリングできます。
  • ディープダイブ調査: 30分のテクニカルトークを2倍速で見る代わりに、/watchを使用して、重要な瞬間、画面に表示されたコードスニペット、スピーカーの主要な主張を抽出します。

始め方

インストールは環境に応じて柔軟に行えます。

Claude Codeユーザーの場合:

/plugin marketplace add bradautomates/claude-video
/plugin install watch@claude-video

Webユーザーの場合: GitHubのリリースページからwatch.skillファイルをダウンロードし、Settings → Capabilities → Skillsから追加します。「Code execution」が有効になっていることを確認してください。

効率化のためのプロのヒント

画像トークンは高価であるため、このツールには予算を節約するための「フォーカスモード」が含まれています。

  • --start--endフラグを使用する: 特定のセグメントだけに興味がある場合は、それを定義します。これにより、その特定のウィンドウのフレーム密度が高まり、動画の残りの部分にトークンを浪費することなく、そのセクションの精度を大幅に向上させることができます。
  • 解像度の調整: 動画に小さなテキスト(ターミナルやコードエディタなど)が含まれている場合は、--resolution 1024を使用して、Claudeが画面上の詳細をはっきりと読み取れるようにします。
  • Whisperバックエンド: 多くの動画を処理する場合は、WhisperにGroq APIを使用してください。標準のOpenAIパスよりも大幅に高速で安価です。

注意すべき制限事項

  • 10分のルール: 長い動画も処理できますが、精度が最も高いのは10分未満です。より長いコンテンツの場合は、--start--endフラグを使用して分析を管理可能なチャンクに分割してください。
  • 認証なし: このツールは、プライベートな認証が必要な動画ストリームは処理しません。公開URLとローカルファイルで最適に動作します。

動画を検索可能でクエリ可能なデータソースに変えることで、/watchはClaudeをテキストベースのアシスタントから真のマルチモーダルアナリストへと変貌させます。デバッグでもリサーチでも、AIツールキットに欠かせない追加機能となるでしょう。

ソース

bradautomates/claude-video: Give Claude the ability to watch any video. /watch downloads, extracts frames, transcribes, hands it all to Claude.