赋予 Claude 眼睛:如何使用 /watch 分析任何视频

不再猜测视频内容。了解如何使用 /watch 技能让 Claude 下载、转录并视觉化分析任何视频文件或 URL。

尽管现代大语言模型(LLM)功能强大,但在历史上,它们对我们最常见的信息来源之一——视频——一直处于“失明”状态。如果你想了解一段 20 分钟的 YouTube 教程或一段 Bug 录屏中发生了什么,你必须亲自观看,或者依赖那些缺失视觉上下文、且往往不准确的自动生成字幕。

claude-video 通过赋予 Claude 一项新能力改变了这一点:/watch 命令。这个工具填补了原始视频文件与 Claude 多模态推理引擎之间的空白。

工作原理:幕后机制

/watch 技能是一个复杂的编排层,它自动化了视频处理中的繁重工作:

  1. 摄取: 它使用 yt-dlp 从几乎任何来源(YouTube、TikTok、Loom、X 等)获取内容,或接受本地文件路径。
  2. 帧提取: 它使用 ffmpeg 从视频中采样图像帧。至关重要的是,它根据视频时长使用自动缩放的帧预算。例如,一段 30 秒的剪辑会获得约 30 帧,而一段 10 分钟的视频则会进行 100 帧的稀疏扫描,以保持 Token 使用效率。
  3. 转录: 它优先使用原生字幕(免费且快速)。如果没有字幕,它会回退到 Whisper(通过 Groq 或 OpenAI)来生成带有时间戳的转录文本。
  4. 多模态合成: 它将图像帧和转录文本打包进上下文窗口,让 Claude 能够“看”到并“听”到,从而使其能够基于实际的视觉和听觉数据回答问题。

为什么开发者需要它

除了简单的视频总结,该工具还解决了几个高摩擦的开发者工作流:

  • Bug 复现: 与其要求用户描述 Bug,不如让他们发送一段录屏。运行 /watch bug-repro.mov "崩溃发生时 UI 状态是怎样的?",让 Claude 精确指出错误触发的那一帧。
  • 内容工程: 分析爆款钩子或竞争对手的广告创意。你可以问:“这段视频的前 3 秒屏幕上出现了什么?”来逆向工程成功的内容结构。
  • 深度研究: 与其以 2 倍速观看 30 分钟的技术演讲,不如使用 /watch 提取关键时刻、屏幕上显示的代码片段以及演讲者的核心观点。

快速上手

安装方式灵活,取决于你的环境:

对于 Claude Code 用户:

/plugin marketplace add bradautomates/claude-video
/plugin install watch@claude-video

对于 Web 端用户:GitHub releases 页面 下载 watch.skill 文件,并通过 Settings → Capabilities → Skills 添加。确保已启用 "Code execution"(代码执行)。

提高效率的高级技巧

由于图像 Token 价格昂贵,该工具包含“聚焦模式”以节省预算:

  • 使用 --start--end 标志: 如果你只关心特定片段,请定义它。这会增加该特定窗口的帧密度,在不浪费 Token 处理视频其余部分的情况下,为你提供更高的准确度。
  • 调整分辨率: 如果视频包含微小文字(如终端或代码编辑器),请使用 --resolution 1024 以确保 Claude 能清晰读取屏幕细节。
  • Whisper 后端: 如果你需要处理大量视频,请使用 Groq API 调用 Whisper;它比标准的 OpenAI 路径显著更快且更便宜。

需要注意的局限性

  • 10 分钟规则: 虽然它可以处理更长的视频,但在 10 分钟以内的准确度最高。对于更长的内容,请使用 --start--end 标志将分析拆分为可管理的区块。
  • 无身份验证: 该工具无法处理私有的、需要身份验证的视频流。它最适合处理公开 URL 和本地文件。

通过将视频转化为可搜索、可查询的数据源,/watch 将 Claude 从一个基于文本的助手转变为真正的多模态分析师。无论你是在调试还是在做研究,它都是你 AI 工具箱中不可或缺的补充。

来源

bradautomates/claude-video: 赋予 Claude 观看任何视频的能力。/watch 下载、提取帧、转录并将其全部交给 Claude。