Faster Whisper ChickenRice : Transcription japonais‑vers‑chinois

ChickenRice – Un outil de transcription Open‑Source puissant japonais‑vers‑chinois

Dans un monde où les vidéos et podcasts couvrent des dizaines de langues, la possibilité de générer automatiquement des sous‑titres de façon précise et rapide peut faire gagner des heures de travail manuel. ChickenRice (Faster‑Whisper‑TransWithAI) est une solution prête à l’emploi qui prend un fichier audio ou vidéo japonais et produit des sous‑titres chinois (SRT, VTT, LRC) en un clin d’œil. Construite sur le moteur Faster Whisper ultra‑rapide et alimentée par un modèle Japonais‑vers‑Chinois optimisé entraîné sur 5 000 heures d’audio, elle offre une précision à la pointe de la technologie.

Caractéristiques clés

Fonctionnalité Description
Accélération GPU Prend en charge CUDA 11.8, 12.2, 12.8 – idéal pour les séries NVIDIA RTX.
Inférence par lots Traite des dizaines de fichiers en même temps grâce au cache automatique qui saute les éléments déjà traités.
VAD optimisé voix Utilise le whisper‑VAD de TransWithAI pour découper le bruit de fond et se concentrer sur la parole.
Sortie multi‑format Exporte en SRT, VTT, LRC, ou même en texte brut.
Inférence cloud L’intégration Modal vous permet d’exécuter le modèle sur un GPU dans le cloud sans matériel local.
Démarrage sans code Glissez‑et‑déposez des fichiers bat pour les modes GPU et CPU – aucun script lourd requis.
Open‑Source et MIT Tout le code, les données et les modèles sont compatibles GPL – les contributeurs sont les bienvenus.

Pourquoi ChickenRice ?

  • Haute précision : Le modèle Japonais‑Chinois personnalisé a été entraîné sur un vaste corpus audio de locuteurs natifs, garantissant des traductions correctes et une prise en compte du contexte.
  • Vitesse : Faster Whisper comprime la puissance de décodage en un seul passage, ce qui en fait l’alternative la plus rapide à Whisper d’origine.
  • Flexibilité : Que vous disposiez d’un RTX 3090 puissant ou seulement d’un CPU, il existe un chemin de déploiement pour vous.
  • Extensibilité : Le code est propre et modulaire – ajustez le generation_config.json5 ou introduisez votre propre modèle VAD.

Guide rapide d’installation

  1. Prérequis
  2. Windows 10/11 (+ option WSL pour Linux), Python 3.11+ et un GPU NVIDIA ou un compte Modal.
  3. git, conda (ou pip) et le CLI modal.

  4. Cloner le dépôt

    git clone https://github.com/TransWithAI/Faster-Whisper-TransWithAI-ChickenRice.git
    cd Faster-Whisper-TransWithAI-ChickenRice
    

  5. Installer les dépendances

    conda env create -f environment-cuda118.yml    # ou cuda122 / cuda128
    conda activate faster-whisper-cu118
    
    Ou utilisez pip install -r requirements.txt si vous préférez.

  6. Télécharger les modèles

    python download_models.py  # récupère les modèles Whisper et VAD
    

  7. Exécuter localement

  8. GPU (meilleure performance) : . un(GPU).bat
  9. CPU (fallback) : . un(CPU).bat
  10. GPU faible VRAM : . un(GPU,低显存模式).bat
  11. Vidéo uniquement : . un(翻译视频)(GPU).bat

Glissez votre fichier vidéo/audio sur le fichier batch correspondant.

  1. Inférence cloud (facultatif)
    modal token new   # enregistrez/renouvelez votre jeton Modal
    modal run modal_infer.py   # l’invite interactive demandera le type de GPU, le modèle, les fichiers
    

Pour un exécutable pré‑construit, utilisez modal_infer.exe.

  1. Personnaliser la sortie Modifiez generation_config.json5 pour ajuster la taille du faisceau, la température ou activer segment_merge pour des sous‑titres plus propres.

Exemple de réglage :

{
  "segment_merge": {"enabled": true, "max_gap_ms": 500, "max_duration_ms": 2000}
}

Sujets avancés

Utilisation de l’inférence cloud Modal

  • Pourquoi Modal? Pas de GPU local, ou vous voulez évoluer à travers de nombreux jobs. Modal vous offre un GPU T4 gratuit (jusqu’à 30 $ / mois) et gère automatiquement l’horloge.
  • Configuration : Après avoir exécuté modal token new, vous pouvez lancer des jobs depuis la ligne de commande ou via le script fourni modal_infer.py.
  • Coût : Environ 0,02 $–0,05 $ par minute de temps GPU selon le type de GPU.

Traitement par lots et mise en cache

L’outil détecte automatiquement les fichiers déjà traités et les saute. C’est crucial lorsqu’on gère de grandes bibliothèques multimédias ; vous ne refaites fonctionner que les éléments non nettoyés.

Extension du kit de modèles

Vous pouvez remplacer le modèle de traduction Japonais‑Chinois par n’importe quel point de contrôle de Whisper ou ajouter un modèle VAD personnalisé en modifiant l’entrée infer.py et le YAML d’environnement.

Communauté et support

  • Problèmes et Pull Requests : Visitez le dépôt GitHub pour signaler des bugs ou soumettre des améliorations.
  • Telegram : Rejoignez le chat AI汉化组 pour une aide rapide et un développement collaboratif.
  • Documentation : Le dépôt contient le README.md, le 使用说明.txt et le RELEASE_NOTES_CN.md pour des instructions détaillées.

En réflexions finales

ChickenRice n’est pas seulement un script de transcription ; c’est une pipeline prête à la production adaptée aux YouTubers, podcasteurs ou chercheurs ayant besoin de sous‑titres japonais‑vers‑chinois rapides et fiables. Avec l’accélération GPU, l’échelle cloud fluide et une licence MIT, adopter ChickenRice peut réduire drastiquement le temps de création manuelle de sous‑titres.

Essayez‑le, forkez le dépôt et contribuez – la prochaine percée de la communauté en transcription assistée par IA est à quelques lignes de code de portée !

Original Article: Voir l’original

Partager cet article