JJYB_AI VideoAutoCut:开源 AI 视频编辑工具包

JJYB_AI VideoAutoCut – 一个完整的开源 AI 视频编辑工具包

2025 年后期,开发者姜杰义发布了 JJYB_AI_VideoAutoCut(又名 JJYB_AI 智剪),这是一套端到端的 AI 视频编辑解决方案,将专业视频制作交到业余爱好者和内容创作者手中。项目是一个单一的 GitHub 仓库,集成了:

  • 一个基于 Flask 的 Web 前端 + 轻量级桌面包装器,
  • 19 种语言模型(ChatGLM、GPT‑4、Claude 3…),
  • 6 种视觉模型(YOLOv8、GPT‑4V、Gemini Vision 等),
  • 4 种 TTS 引擎(Edge‑TTS、Google TTS、Azure TTS、Voice Clone),以及
  • 一个强大的 FFmpeg‑MoviePy‑OpenCV 处理流水线。

下面我们将通过架构、关键特性、快速入门以及几个实际使用案例进行阐述。


1. 项目概览

JJYB_AI_VideoAutoCut
 ├─ frontend/           # Flask + SocketIO UI
 ├─ backend/            # AI services & processing logic
 ├─ config/             # Global INI settings
 ├─ resource/           # Pre‑downloaded model weights 
 ├─ upload/             # User’s raw files
 └─ output/            # Final video artefacts

亮点

功能 描述
智能剪辑 通过 YOLOv8 和自定义场景切换检测器实现自动段落检测。
原声解说 视觉分析 → LLM 草稿 → TTS → 视频叠加。
多引擎配音 Edge‑TTS(免费,23+ 语音)、Google TTS、Azure TTS、Voice Clone。
混剪模式 批量导入、自动高亮、风格导向过渡、音乐同步剪辑。
极低延迟 低于 100 ms 的音视频同步,采用自定义时间映射。
一键启动 启动应用.bat 运行 check_system.py,解析依赖并在 http://localhost:5000 启动应用。

2. 安装与配置

1. 克隆仓库

git clone https://github.com/jianjieyiban/JJYB_AI_VideoAutoCut.git
cd JJYB_AI_VideoAutoCut

2. 创建并激活虚拟环境

python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate

3. 安装依赖

pip install -r requirements.txt

提示 – 如果你在 Windows 上且电脑配备 GPU,请从官方站点安装支持 CUDA 的 PyTorch wheel。

4. 检查系统需求

python check_system.py
脚本会验证: * Python 3.9‑3.11 * FFmpeg 二进制文件(缺失时自动下载) * CUDA 库(若欲开启 GPU 模式)

5. 配置 API

启动后访问 http://localhost:5000/api_settings。请至少提供: * 一个大语言模型API 密钥(如阿里云通义 Qwen Plus、DeepSeek 或 OpenAI)。界面将自动测试连通性。 * 可选的视觉模型密钥(如腾讯 CV 或 Google‑Vision)。 * Edge‑TTS 可离线使用;其他 TTS 引擎可能需要凭证。

6. 启动应用

  • 双击 启动应用.bat,或
  • 运行 python frontend/app.py 并打开 http://localhost:5000

你现在拥有了一个轻量级的 Web 视频编辑器!前端提供 3 个子应用: 1. index.html – 时间轴编辑器 2. voiceover.html – AI 配音模块 3. commentary.html – 自动生成旁白


3. 核心功能详解

3.1 智能剪辑

系统会自动将原始文件切分为逻辑段落。它使用 YOLOv8 进行目标检测,OpenCV 进行逐帧分析。检测阈值可在 config/ 中调节。

如何调节

[cutting]
ObjectScoreThreshold = 0.4
SceneChangeSensitivity = 0.8

3.2 原声解说流程

  1. 视觉解析 – 检测物体、面部与动作。
  2. LLM 脚本 – 根据所选模型生成简洁叙述。
  3. TTS 合成 – 将段落渲染成音频。
  4. 视频叠加 – 与时间轴同步,并可选加字幕。

专业提示:使用 TongYi‑Qwen‑Plus 模型通常能在成本、速度与质量之间获得最佳平衡,尤其适合中文视频。

3.3 AI 配音

选择语言与语音,微调语速、音调与音量。UI 支持实时预览,直至最终渲染。

3.4 混剪与音乐同步

上传多段剪辑 → 系统识别精彩片段,按指定风格排列,添加过渡,并同步到音乐轨道。


4. 高级用法与自动化

# 示例:通过 CLI 批量处理(未来功能)
from backend.api import process_video
process_video(
    src='uploads/sample.mp4',
    model='tongyi_qwen',
    voice='en_azure_01',
    mode='commentary',
    output='output/sample_result.mp4'
)

注意:虽然 UI 已足够大多数用户使用,但你也可以直接通过位于 docs/API.md 的 REST 接口与后端交互。


5. 开发与贡献

本项目遵循标准 Git 工作流。贡献指南: 1. Fork 并克隆。 2. 新建功能分支(git checkout -b feature/X)。 3. 在 tests/ 下添加单元测试。 4. 如新增功能,请更新 README.md 或文档。 5. 提交 PR。

维护者会积极评审改进模型支持、添加新 UI 功能或完善处理流水线的 PR。


6. 社区与支持

  • GitHub Issues – 用于提交错误、功能请求或一般问题。
  • Discord – 专门的服务器提供快速帮助、演示和教程(邀请链接见 README)。
  • 文档开发文档/ 文件夹包含多章节指南,涵盖从 AI 模型配置到详细 API 用法。

7. 为什么值得一试的开源项目

  • 零成本 – 所有核心模型免费或开源。付费 API 是可选的。
  • 模块化设计 – 只需几行配置即可替换任何 LLM、视觉或 TTS 模型。
  • 跨平台 – 在 Windows、macOS 与 Linux 上通过 Flask 运行。
  • 可扩展 – 研究人员可将新的模型检查点添加至 resource/ 文件夹。
  • 无云封闭 – 所有处理在本地完成,视频数据永不离开机器。

开始吧

下载并尝试 JJYB_AI VideoAutoCut。无需编写一行代码即可打造 AI 强化视频——只需打开 Web UI,填入 API 密钥,让 AI 接管繁重工作。

祝编辑愉快!

原创文章: 查看原文

分享本文