AI‑Video‑Transcriber : Transcrire et résumer n’importe quelle vidéo avec l'IA

AI‑Video‑Transcriber – Transcrire et résumer n’importe quelle vidéo avec l'IA

À l’ère où le contenu vidéo est omniprésent – des tutoriels YouTube aux courts clips TikTok – la capacité à transformer rapidement le contenu parlé en texte lisible et recherchable est devenue indispensable. Que vous soyez un créateur de contenu cherchant à préparer des sous‑titres, un chercheur examinant des interviews ou un développeur construisant une nouvelle plateforme média, vous avez besoin d’une solution fiable et open source qui prend en charge des dizaines de sites vidéo et des dizaines de langues.

Rencontrez AI‑Video‑Transcriber

AI‑Video‑Transcriber est un assistant IA prêt à être déployé qui prend une URL vidéo, télécharge le média, exécute un modèle Whisper à la pointe de la technologie pour une transcription précise, affine la transcription, puis produit enfin un résumé concis et bien structuré dans la langue que vous avez choisie. Tout cela se produit dans une interface web alimentée par FastAPI et fonctionne sans effort sur un ordinateur portable ou dans un conteneur Docker.

Fonctionnalités clés

  • 🔄 Prend en charge plus de 30 plateformes vidéo via yt‑dlp (YouTube, TikTok, Bilibili, Facebook, Instagram, Twitter, etc.)
  • 🎤 Transcription précise grâce à Faster‑Whisper avec des tailles de modèles sélectionnables (tiny, base, small, medium, large)
  • ✍️ Correction automatique des fautes de frappe, complétion de phrases et mise en paragraphes
  • 🗣️ Résumés multilingues (anglais, chinois, japonais, coréen, espagnol, français, allemand, portugais, russe, arabe & plus)
  • 🔤 Traduction automatique avec GPT‑4o lorsque la langue du résumé demandée diffère de la langue source
  • 📱 Interface adaptée aux mobiles et retour d’avancement en temps réel
  • ⚙️ Prêt pour Docker, ou installation via un simple script shell
  • 📦 Open source sous licence Apache‑2.0 – gratuit à forker, modifier et redistribuer

Pourquoi cet outil se démarque

Critère AI‑Video‑Transcriber Concurrent(s) Remarques
Open‑source ✔️ Mixte (majoritairement fermé) Pas de verrouillage fournisseur
Multi‑plateforme ✔️ Variable Exploite l’écosystème de plugins yt‑dlp
Vitesse/Précision Modèles Fast‑Whisper Google Speech‑to‑Text Précision comparable, coût inférieur
Couverture linguistique 100+ via Whisper Limité Excellent pour les équipes globales
Synthèse Fallback GPT‑4o Seule API OpenAI Apporte de la valeur via la synthèse IA
Déploiement Docker & CLI Docker ou manuel Configuration environnement simplifiée

Guide de démarrage rapide

Vous avez trois façons de mettre l’outil en marche.

1. Installation Shell automatique

# Clone the repo
git clone https://github.com/wendy7756/AI-Video-Transcriber.git
cd AI-Video-Transcriber

# Make the installation script executable
chmod +x install.sh

# Run it
./install.sh
Le script installe les dépendances Python, configure un environnement virtuel et télécharge FFmpeg (s’il manque). Il démarre ensuite un serveur FastAPI sur http://localhost:8000.

2. Déployer via Docker Compose

# Clone repository
git clone https://github.com/wendy7756/AI-Video-Transcriber.git
cd AI-Video-Transcriber

# Copy env template and set your key
cp .env.example .env
# Edit .env and set OPENAI_API_KEY

# Start services
docker-compose up -d
Vous pouvez ajuster WHISPER_MODEL_SIZE dans le fichier .env pour équilibrer vitesse et mémoire.

3. Installation manuelle

# Create a virtualenv (macOS or Linux)
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt

# Install FFmpeg
brew install ffmpeg   # macOS
# or
sudo apt update && sudo apt install ffmpeg

# Run the server
python3 start.py

Astuce : Pour les vidéos longues (>30 min), démarrez le serveur avec --prod pour éviter les déconnexions SSE :

python3 start.py --prod

Comment ça fonctionne en coulisse

flowchart TD
    A[User enters video URL] --> B[yt‑dlp downloads video]
    B --> C[ffmpeg extracts audio]
    C --> D[Fast-Whisper transcribes]
    D --> E[Text optimizer (typo/correct)
    E --> F[OpenAI GPT-4o for summarization or translation]
    F --> G[Web UI shows results & download links]
  • yt‑dlp : Gère plus de 200 sites média, garantissant une couverture étendue.
  • Faster‑Whisper : Modèle de reconnaissance vocale léger et compatible GPU.
  • OpenAI GPT‑4o : Ajoute un nettoyage contextuel, une paraphrase et la génération de résumé.
  • FastAPI : Fournit des points de terminaison REST à faible latence pour le backend et le frontend.

Questions fréquentes

Q : Le programme est-il gratuit ? R : L'outil est open source sous licence Apache‑2.0. Le seul coût est la clé API OpenAI optionnelle pour les résumés et traductions.

Q : Mon résumé est dans une langue différente – puis-je obtenir une traduction ? R : Oui. Si la langue du résumé sélectionnée diffère de la langue détectée de la transcription, l’interface génère automatiquement une transcription traduite via GPT‑4o.

Q : La transcription est lente sur mon ordinateur portable – que puis-je faire ? R : Réduisez la taille du modèle Whisper (tiny ou base). Alternativement, lancez Docker sur une machine disposant d’un GPU.

Q : J'ai rencontré une erreur 500 – pourquoi ? R : La plupart du temps, c’est un problème d’environnement. Assurez-vous que FFmpeg est installé, que votre environnement virtuel est activé et qu’une clé OPENAI_API_KEY valide est définie. Vérifiez les journaux avec docker logs ou la sortie console.

Q : De quelle mémoire a-t‑il besoin ? R : Les images Docker de base sont d’environ 128 Mo. Pendant la transcription, vous aurez besoin de 0,5–2 Go selon la longueur de la vidéo et la taille du modèle. Pour une utilisation intensive, donnez au conteneur au moins 4 Go de RAM.

Conseils de performance

Action Impact
Utiliser le modèle Whisper tiny ou base Plus rapide, moins de mémoire
Décharger les modèles sur le GPU Transcriptions beaucoup plus rapides
Lancer en mode production (--prod) Maintient les connexions SSE pour les tâches longues
Limiter la mémoire Docker (-m 1g) Empêche les plantages par manque de mémoire
Utiliser un réseau rapide Téléchargements vidéo plus rapides

Contribution

Nous adorons les contributions communautaires ! Que vous ajoutiez un nouveau dialecte Whisper, amélioriez l’UX frontend ou optimisiez l’image Docker, toutes les pull requests sont les bienvenues.

1. Forkez le dépôt.

2. Créez une branche de fonctionnalité : git checkout -b feature/your-awesome-idea.

3. Commit & push.

4. Ouvrez une Pull Request.

Envisagez également de créer des tickets pour les bugs, les demandes de fonctionnalités ou les suggestions de documentation.

Conclusion

AI‑Video‑Transcriber permet à quiconque de transformer l’audio de n’importe quelle vidéo en texte clair et résumé – tout ça open source, multiplateforme et soutenu par la dernière IA. Pas de tableaux de bord propriétaires ni de barrières payantes – il suffit de copier-coller un lien, choisir une langue et laisser l’IA faire le travail lourd. Prenez le code, lancez-le en quelques minutes et commencez la transcription.


Liens

  • Référentiel : https://github.com/wendy7756/AI-Video-Transcriber
  • Docker Hub : https://hub.docker.com/r/ai-video-transcriber
  • Documentation : https://github.com/wendy7756/AI-Video-Transcriber#readme
Original Article: Voir l’original

Partager cet article