JJYB_AI VideoAutoCut : Le kit d'édition vidéo AI open source

January 29, 2026

Catégorie: Projets Open Source Pratiques

Étiquettes:

Open Source Python tts ai-video-editing Flask

JJYB_AI VideoAutoCut – Un kit complet d'édition vidéo AI open‑source

Vers la fin 2025, un développeur nommé Jianjie Yi a publié JJYB_AI_VideoAutoCut (également connu sous le nom JJYB_AI 智剪) – une solution d'édition vidéo AI de bout en bout qui apporte la production vidéo professionnelle entre les mains de passionnés et de créateurs de contenu. Le projet est un seul dépôt GitHub qui regroupe :

un front‑end web basé sur Flask + un wrapper de bureau léger,
un ensemble de 19 modèles linguistiques (ChatGLM, GPT‑4, Claude 3…)
6 modèles vision (YOLOv8, GPT‑4V, Gemini Vision, etc.),
4 moteurs TTS (Edge‑TTS, Google TTS, Azure TTS, Voice Clone), et
une pipeline de traitement robuste FFmpeg‑MoviePy‑OpenCV.

Dans ce guide, nous passons en revue l'architecture, les fonctionnalités clés, un démarrage rapide, ainsi que quelques cas pratiques.

1. Aperçu du projet

JJYB_AI_VideoAutoCut
 ├─ frontend/           # Flask + SocketIO UI
 ├─ backend/            # AI services & processing logic
 ├─ config/             # Global INI settings
 ├─ resource/           # Pre‑downloaded model weights 
 ├─ upload/             # User’s raw files
 └─ output/            # Final video artefacts

Points forts

Fonctionnalité	Description
Coupe intelligente	Détection de segments automatique via YOLOv8 et un détecteur de changements de scène personnalisé.
Commentaire original	Analyse visuelle → brouillon LLM → TTS → superposition vidéo.
Voix‑over multi‑moteurs	Edge‑TTS (gratuit, 23+ voix), Google TTS, Azure TTS, Voice Clone.
Mode Mix‑Cut	Import en lot, auto‑highlight, transitions guidées par le style, synchronisation music‑cut.
Latence extrêmement faible	< 100 ms synchronisation audio/video grâce à une carte de temps personnalisée.
Démarrage en un clic	`启动应用.bat` exécute `check_system.py`, résout les dépendances, lance l’application sur `http://localhost:5000`.

2. Installation & configuration

1. Cloner le dépôt

git clone https://github.com/jianjieyiban/JJYB_AI_VideoAutoCut.git
cd JJYB_AI_VideoAutoCut

2. Créer et activer un environnement virtuel

python -m venv venv
source venv/bin/activate  # Windows : venv\Scripts\activate

3. Installer les dépendances

pip install -r requirements.txt

Astuce – Si vous êtes sous Windows et que votre machine possède une GPU, installez le wheel PyTorch compatible CUDA depuis le site officiel.

4. Vérifier les prérequis système

python check_system.py

Le script vérifie : * Python 3.9‑3.11 * Binaire FFmpeg (téléchargé automatiquement s’il manque) * Bibliothèques CUDA (si mode GPU désiré)

5. Configurer vos API

Accédez à http://localhost:5000/api_settings après le démarrage. Au minimum, fournissez : * Une clé API d'un modèle de langage (ex : Alibaba TongYi‑Qwen‑Plus, DeepSeek ou OpenAI). L’interface testera automatiquement la connexion. * Optionnellement une clé pour un modèle Vision (ex : Tencent CV ou Google‑Vision). * Edge‑TTS fonctionne hors ligne ; les autres moteurs TTS peuvent nécessiter des identifiants.

6. Lancer l'application

Double‑cliquez sur 启动应用.bat, ou
Exécutez python frontend/app.py et ouvrez http://localhost:5000.

Vous disposez maintenant d'une application web légère pour l'édition vidéo ! Le front‑end contient 3 sous‑applications : 1. index.html – éditeur de timeline 2. voiceover.html – module voix‑over IA 3. commentary.html – génération automatique de narration

3. Fonctionnalités principales expliquées

3.1 Coupe intelligente

Le système subdivise automatiquement un fichier brut en segments logiques. Il utilise YOLOv8 pour la détection d’objets et OpenCV pour l’analyse image par image. Les seuils de détection sont réglables via config/.

Ajustement

[cutting]
ObjectScoreThreshold = 0.4
SceneChangeSensitivity = 0.8

3.2 Pipeline de commentaire original

Analyse visuelle – détecte objets, visages et actions.
Script LLM – génère un commentaire concis basé sur le modèle sélectionné.
Synthèse TTS – rend le paragraphe en audio.
Overlay vidéo – synchronise l’audio à la timeline et ajoute éventuellement des sous‑titres.

Astuce pro : l’utilisation du modèle TongYi‑Qwen‑Plus fournit généralement l’équilibre idéal entre coût, vitesse et qualité pour les vidéos chinoises.

3.3 Voix‑over IA

Choisissez une langue et une voix ; ajustez vitesse, hauteur et volume. L’interface permet un aperçu en temps réel avant le rendu final.

3.4 Mix‑Cut & synchronisation musiquement

Téléchargez plusieurs clips → le système identifie des fragments dynamiques, les organise selon un style défini, ajoute les transitions et synchronise les coupes avec une piste musicale.

4. Utilisation avancée & automatisation

# Exemple : traitement en lot via CLI (fonctionnalité future)
from backend.api import process_video
process_video(
    src='uploads/sample.mp4',
    model='tongyi_qwen',
    voice='en_azure_01',
    mode='commentary',
    output='output/sample_result.mp4'
)

Remarque : bien que l’interface soit suffisante pour la plupart des utilisateurs, vous pouvez interagir directement avec le backend via les points de terminaison REST documentés dans docs/API.md.

5. Développement & contribution

Le projet suit un flux Git standard. Consignes de contribution : 1. Fork et clone. 2. Créez une branche feature (git checkout -b feature/X). 3. Ajoutez des tests unitaires under tests/. 4. Mettez à jour README.md ou la documentation si vous ajoutez une fonctionnalité. 5. Soumettez une PR.

Les mainteneurs révisent activement les PR qui améliorent le support des modèles, ajoutent de nouvelles fonctionnalités UI ou peaufinent la pipeline de traitement.

6. Communauté & support

GitHub Issues – pour bugs, demandes de fonctionnalités ou questions générales.
Discord – un serveur dédié propose aide rapide, démonstrations et tutoriels (lien d’invitation dans le README).
Documentation – le dossier 开发文档/ contient des guides multi‑chapitres couvrant tout, de la configuration des modèles IA à l’utilisation détaillée des API.

7. Pourquoi c’est un projet open source à ne pas manquer

Coût zéro – tous les modèles de base sont gratuits ou open source. Les API payantes sont optionnelles.
Conception modulaire – remplacez n’importe quel LLM, modèle vision ou moteur TTS en quelques lignes de configuration.
Multi‑plateforme – fonctionne sur Windows, macOS et Linux via Flask.
Extensible – les chercheurs peuvent injecter de nouveaux checkpoints de modèles dans le dossier resource/.
Pas de verrouillage cloud – tout s’exécute localement ; vos données vidéo ne quittent jamais votre machine.

Commencez dès aujourd’hui

Téléchargez et essayez JJYB_AI VideoAutoCut. Créez vos propres vidéos améliorées par l’IA sans écrire une seule ligne de code : ouvrez simplement l’interface web, ajoutez vos clés API et laissez l’IA faire le travail lourd.

Bon montage !

Original Article: Voir l’original

Partager cet article