赋予 Claude 眼睛：如何使用 /watch 分析任何视频

尽管现代大语言模型（LLM）功能强大，但在历史上，它们对我们最常见的信息来源之一——视频——一直处于“失明”状态。如果你想了解一段 20 分钟的 YouTube 教程或一段 Bug 录屏中发生了什么，你必须亲自观看，或者依赖那些缺失视觉上下文、且往往不准确的自动生成字幕。

claude-video 通过赋予 Claude 一项新能力改变了这一点：/watch 命令。这个工具填补了原始视频文件与 Claude 多模态推理引擎之间的空白。

/watch 技能是一个复杂的编排层，它自动化了视频处理中的繁重工作：

摄取： 它使用 yt-dlp 从几乎任何来源（YouTube、TikTok、Loom、X 等）获取内容，或接受本地文件路径。
帧提取： 它使用 ffmpeg 从视频中采样图像帧。至关重要的是，它根据视频时长使用自动缩放的帧预算。例如，一段 30 秒的剪辑会获得约 30 帧，而一段 10 分钟的视频则会进行 100 帧的稀疏扫描，以保持 Token 使用效率。
转录： 它优先使用原生字幕（免费且快速）。如果没有字幕，它会回退到 Whisper（通过 Groq 或 OpenAI）来生成带有时间戳的转录文本。
多模态合成： 它将图像帧和转录文本打包进上下文窗口，让 Claude 能够“看”到并“听”到，从而使其能够基于实际的视觉和听觉数据回答问题。

除了简单的视频总结，该工具还解决了几个高摩擦的开发者工作流：

Bug 复现： 与其要求用户描述 Bug，不如让他们发送一段录屏。运行 /watch bug-repro.mov "崩溃发生时 UI 状态是怎样的？"，让 Claude 精确指出错误触发的那一帧。
内容工程： 分析爆款钩子或竞争对手的广告创意。你可以问：“这段视频的前 3 秒屏幕上出现了什么？”来逆向工程成功的内容结构。
深度研究： 与其以 2 倍速观看 30 分钟的技术演讲，不如使用 /watch 提取关键时刻、屏幕上显示的代码片段以及演讲者的核心观点。

安装方式灵活，取决于你的环境：

对于 Claude Code 用户：

/plugin marketplace add bradautomates/claude-video
/plugin install watch@claude-video

对于 Web 端用户： 从 GitHub releases 页面下载 watch.skill 文件，并通过 Settings → Capabilities → Skills 添加。确保已启用 "Code execution"（代码执行）。

由于图像 Token 价格昂贵，该工具包含“聚焦模式”以节省预算：

使用 --start 和 --end 标志： 如果你只关心特定片段，请定义它。这会增加该特定窗口的帧密度，在不浪费 Token 处理视频其余部分的情况下，为你提供更高的准确度。
调整分辨率： 如果视频包含微小文字（如终端或代码编辑器），请使用 --resolution 1024 以确保 Claude 能清晰读取屏幕细节。
Whisper 后端： 如果你需要处理大量视频，请使用 Groq API 调用 Whisper；它比标准的 OpenAI 路径显著更快且更便宜。

10 分钟规则： 虽然它可以处理更长的视频，但在 10 分钟以内的准确度最高。对于更长的内容，请使用 --start 和 --end 标志将分析拆分为可管理的区块。
无身份验证： 该工具无法处理私有的、需要身份验证的视频流。它最适合处理公开 URL 和本地文件。

通过将视频转化为可搜索、可查询的数据源，/watch 将 Claude 从一个基于文本的助手转变为真正的多模态分析师。无论你是在调试还是在做研究，它都是你 AI 工具箱中不可或缺的补充。

来源