JJYB_AI VideoAutoCut：开源 AI 视频编辑工具包

January 29, 2026

类别: 实用开源项目

标签:

Open Source Python tts ai-video-editing Flask

JJYB_AI VideoAutoCut – 一个完整的开源 AI 视频编辑工具包

2025 年后期，开发者姜杰义发布了 JJYB_AI_VideoAutoCut（又名 JJYB_AI 智剪），这是一套端到端的 AI 视频编辑解决方案，将专业视频制作交到业余爱好者和内容创作者手中。项目是一个单一的 GitHub 仓库，集成了：

一个基于 Flask 的 Web 前端 + 轻量级桌面包装器,
19 种语言模型（ChatGLM、GPT‑4、Claude 3…），
6 种视觉模型（YOLOv8、GPT‑4V、Gemini Vision 等），
4 种 TTS 引擎（Edge‑TTS、Google TTS、Azure TTS、Voice Clone），以及
一个强大的 FFmpeg‑MoviePy‑OpenCV 处理流水线。

下面我们将通过架构、关键特性、快速入门以及几个实际使用案例进行阐述。

1. 项目概览

JJYB_AI_VideoAutoCut
 ├─ frontend/           # Flask + SocketIO UI
 ├─ backend/            # AI services & processing logic
 ├─ config/             # Global INI settings
 ├─ resource/           # Pre‑downloaded model weights 
 ├─ upload/             # User’s raw files
 └─ output/            # Final video artefacts

亮点

功能	描述
智能剪辑	通过 YOLOv8 和自定义场景切换检测器实现自动段落检测。
原声解说	视觉分析 → LLM 草稿 → TTS → 视频叠加。
多引擎配音	Edge‑TTS（免费，23+ 语音）、Google TTS、Azure TTS、Voice Clone。
混剪模式	批量导入、自动高亮、风格导向过渡、音乐同步剪辑。
极低延迟	低于 100 ms 的音视频同步，采用自定义时间映射。
一键启动	`启动应用.bat` 运行 `check_system.py`，解析依赖并在 `http://localhost:5000` 启动应用。

2. 安装与配置

1. 克隆仓库

git clone https://github.com/jianjieyiban/JJYB_AI_VideoAutoCut.git
cd JJYB_AI_VideoAutoCut

2. 创建并激活虚拟环境

python -m venv venv
source venv/bin/activate  # Windows: venv\Scripts\activate

3. 安装依赖

pip install -r requirements.txt

提示 – 如果你在 Windows 上且电脑配备 GPU，请从官方站点安装支持 CUDA 的 PyTorch wheel。

4. 检查系统需求

python check_system.py

脚本会验证： * Python 3.9‑3.11 * FFmpeg 二进制文件（缺失时自动下载） * CUDA 库（若欲开启 GPU 模式）

5. 配置 API

启动后访问 http://localhost:5000/api_settings。请至少提供： * 一个大语言模型API 密钥（如阿里云通义 Qwen Plus、DeepSeek 或 OpenAI）。界面将自动测试连通性。 * 可选的视觉模型密钥（如腾讯 CV 或 Google‑Vision）。 * Edge‑TTS 可离线使用；其他 TTS 引擎可能需要凭证。

6. 启动应用

双击 启动应用.bat，或
运行 python frontend/app.py 并打开 http://localhost:5000。

你现在拥有了一个轻量级的 Web 视频编辑器！前端提供 3 个子应用： 1. index.html – 时间轴编辑器 2. voiceover.html – AI 配音模块 3. commentary.html – 自动生成旁白

3. 核心功能详解

3.1 智能剪辑

系统会自动将原始文件切分为逻辑段落。它使用 YOLOv8 进行目标检测，OpenCV 进行逐帧分析。检测阈值可在 config/ 中调节。

如何调节

[cutting]
ObjectScoreThreshold = 0.4
SceneChangeSensitivity = 0.8

3.2 原声解说流程

视觉解析 – 检测物体、面部与动作。
LLM 脚本 – 根据所选模型生成简洁叙述。
TTS 合成 – 将段落渲染成音频。
视频叠加 – 与时间轴同步，并可选加字幕。

专业提示：使用 TongYi‑Qwen‑Plus 模型通常能在成本、速度与质量之间获得最佳平衡，尤其适合中文视频。

3.3 AI 配音

选择语言与语音，微调语速、音调与音量。UI 支持实时预览，直至最终渲染。

3.4 混剪与音乐同步

上传多段剪辑 → 系统识别精彩片段，按指定风格排列，添加过渡，并同步到音乐轨道。

4. 高级用法与自动化

# 示例：通过 CLI 批量处理（未来功能）
from backend.api import process_video
process_video(
    src='uploads/sample.mp4',
    model='tongyi_qwen',
    voice='en_azure_01',
    mode='commentary',
    output='output/sample_result.mp4'
)

注意：虽然 UI 已足够大多数用户使用，但你也可以直接通过位于 docs/API.md 的 REST 接口与后端交互。

5. 开发与贡献

本项目遵循标准 Git 工作流。贡献指南： 1. Fork 并克隆。 2. 新建功能分支（git checkout -b feature/X）。 3. 在 tests/ 下添加单元测试。 4. 如新增功能，请更新 README.md 或文档。 5. 提交 PR。

维护者会积极评审改进模型支持、添加新 UI 功能或完善处理流水线的 PR。

6. 社区与支持

GitHub Issues – 用于提交错误、功能请求或一般问题。
Discord – 专门的服务器提供快速帮助、演示和教程（邀请链接见 README）。
文档 – 开发文档/ 文件夹包含多章节指南，涵盖从 AI 模型配置到详细 API 用法。

7. 为什么值得一试的开源项目

零成本 – 所有核心模型免费或开源。付费 API 是可选的。
模块化设计 – 只需几行配置即可替换任何 LLM、视觉或 TTS 模型。
跨平台 – 在 Windows、macOS 与 Linux 上通过 Flask 运行。
可扩展 – 研究人员可将新的模型检查点添加至 resource/ 文件夹。
无云封闭 – 所有处理在本地完成，视频数据永不离开机器。

开始吧

下载并尝试 JJYB_AI VideoAutoCut。无需编写一行代码即可打造 AI 强化视频——只需打开 Web UI，填入 API 密钥，让 AI 接管繁重工作。

祝编辑愉快！

原创文章: 查看原文

分享本文