赋予 Claude 眼睛:如何使用 /watch 分析任何视频
不再猜测视频内容。了解如何使用 /watch 技能让 Claude 下载、转录并视觉化分析任何视频文件或 URL。
尽管现代大语言模型(LLM)功能强大,但在历史上,它们对我们最常见的信息来源之一——视频——一直处于“失明”状态。如果你想了解一段 20 分钟的 YouTube 教程或一段 Bug 录屏中发生了什么,你必须亲自观看,或者依赖那些缺失视觉上下文、且往往不准确的自动生成字幕。
claude-video 通过赋予 Claude 一项新能力改变了这一点:/watch 命令。这个工具填补了原始视频文件与 Claude 多模态推理引擎之间的空白。
工作原理:幕后机制
/watch 技能是一个复杂的编排层,它自动化了视频处理中的繁重工作:
- 摄取: 它使用
yt-dlp从几乎任何来源(YouTube、TikTok、Loom、X 等)获取内容,或接受本地文件路径。 - 帧提取: 它使用
ffmpeg从视频中采样图像帧。至关重要的是,它根据视频时长使用自动缩放的帧预算。例如,一段 30 秒的剪辑会获得约 30 帧,而一段 10 分钟的视频则会进行 100 帧的稀疏扫描,以保持 Token 使用效率。 - 转录: 它优先使用原生字幕(免费且快速)。如果没有字幕,它会回退到 Whisper(通过 Groq 或 OpenAI)来生成带有时间戳的转录文本。
- 多模态合成: 它将图像帧和转录文本打包进上下文窗口,让 Claude 能够“看”到并“听”到,从而使其能够基于实际的视觉和听觉数据回答问题。
为什么开发者需要它
除了简单的视频总结,该工具还解决了几个高摩擦的开发者工作流:
- Bug 复现: 与其要求用户描述 Bug,不如让他们发送一段录屏。运行
/watch bug-repro.mov "崩溃发生时 UI 状态是怎样的?",让 Claude 精确指出错误触发的那一帧。 - 内容工程: 分析爆款钩子或竞争对手的广告创意。你可以问:“这段视频的前 3 秒屏幕上出现了什么?”来逆向工程成功的内容结构。
- 深度研究: 与其以 2 倍速观看 30 分钟的技术演讲,不如使用
/watch提取关键时刻、屏幕上显示的代码片段以及演讲者的核心观点。
快速上手
安装方式灵活,取决于你的环境:
对于 Claude Code 用户:
/plugin marketplace add bradautomates/claude-video
/plugin install watch@claude-video
对于 Web 端用户:
从 GitHub releases 页面 下载 watch.skill 文件,并通过 Settings → Capabilities → Skills 添加。确保已启用 "Code execution"(代码执行)。
提高效率的高级技巧
由于图像 Token 价格昂贵,该工具包含“聚焦模式”以节省预算:
- 使用
--start和--end标志: 如果你只关心特定片段,请定义它。这会增加该特定窗口的帧密度,在不浪费 Token 处理视频其余部分的情况下,为你提供更高的准确度。 - 调整分辨率: 如果视频包含微小文字(如终端或代码编辑器),请使用
--resolution 1024以确保 Claude 能清晰读取屏幕细节。 - Whisper 后端: 如果你需要处理大量视频,请使用 Groq API 调用 Whisper;它比标准的 OpenAI 路径显著更快且更便宜。
需要注意的局限性
- 10 分钟规则: 虽然它可以处理更长的视频,但在 10 分钟以内的准确度最高。对于更长的内容,请使用
--start和--end标志将分析拆分为可管理的区块。 - 无身份验证: 该工具无法处理私有的、需要身份验证的视频流。它最适合处理公开 URL 和本地文件。
通过将视频转化为可搜索、可查询的数据源,/watch 将 Claude 从一个基于文本的助手转变为真正的多模态分析师。无论你是在调试还是在做研究,它都是你 AI 工具箱中不可或缺的补充。
来源
bradautomates/claude-video: 赋予 Claude 观看任何视频的能力。/watch 下载、提取帧、转录并将其全部交给 Claude。