Whisper Plus : La transcription vocale avancée

July 29, 2025

Projets Open Source Pratiques

Open Source Speech Recognition AI Transcription CTranslate2

Faster Whisper : la révolution de la reconnaissance vocale avec CTranslate2

Dans le paysage en constante évolution de l'intelligence artificielle, la technologie de reconnaissance vocale (speech-to-text, STT) efficace et précise est primordiale. Le projet faster-whisper de SYSTRAN se présente comme une solution open-source puissante, réimplémentant le célèbre modèle Whisper d'OpenAI à l'aide du moteur d'inférence CTranslate2. Ce choix stratégique se traduit par des améliorations significatives des performances, en faisant une option attrayante pour les développeurs comme pour les chercheurs.

Principaux avantages de Faster Whisper

L'innovation clé de faster-whisper réside dans son optimisation pour la vitesse et la gestion des ressources. Il affiche des vitesses de transcription jusqu'à quatre fois supérieures à l'implémentation d'origine d'OpenAI, tout en nécessitant moins de mémoire. Cette efficacité est encore optimisée grâce à la quantification 8 bits, qui peut être appliquée aussi bien sur CPU que sur GPU, offrant des profils de performance personnalisables.

Tests de performance :

Pour illustrer ses capacités, faster-whisper fournit des benchmarks détaillés comparant ses performances à celles d'autres implémentations telles que openai/whisper, whisper.cpp et Hugging Face transformers. Ces benchmarks mettent en évidence des améliorations remarquables :

Performances GPU : Sur GPU, faster-whisper avec une précision FP16 réalise la transcription beaucoup plus rapidement que les alternatives. Avec la quantification INT8, les gains sont encore plus prononcés, réduisant considérablement l'utilisation de la VRAM.
Performances CPU : Même en s'exécutant sur CPU, faster-whisper offre une vitesse et une efficacité mémoire compétitives, notamment lors de l'utilisation de la quantification INT8 et du traitement par lots.

Installation et configuration

La prise en main de faster-whisper est simple. La seule exigence principale est Python 3.9 ou une version ultérieure. Contrairement à certaines autres solutions STT, il n'est pas nécessaire d'installer FFmpeg séparément sur le système, car le décodage audio est géré par la bibliothèque PyAV.

Exigences GPU : Pour l'accélération GPU, les utilisateurs auront besoin des bibliothèques NVIDIA telles que cuBLAS pour CUDA 12 et cuDNN 9. Le projet fournit des instructions claires pour l'installation de ces dépendances, y compris des solutions de contournement pour différentes versions de CUDA et des recommandations pour l'utilisation de Docker ou des installations basées sur pip sous Linux.

Installation via Pip :

pip install faster-whisper

Des méthodes d'installation plus avancées, comme l'installation directement depuis la branche principale ou un commit spécifique, sont également disponibles.

Utilisation et fonctionnalités

L'intégration de faster-whisper dans vos projets est intuitive. La classe WhisperModel peut être initialisée avec différentes tailles de modèles (par exemple, large-v3). Vous pouvez spécifier le périphérique d'exécution (cuda ou cpu) et le type de calcul (float16, int8_float16, int8).

from faster_whisper import WhisperModel

model_size = "large-v3"
model = WhisperModel(model_size, device="cuda", compute_type="float16")

segments, info = model.transcribe("audio.mp3", beam_size=5)

for segment in segments:
    print(f"[%.2fs -> %.2fs] %s" % (segment.start, segment.end, segment.text))

Fonctionnalités avancées :

Transcription par lots : Pour le traitement simultané de plusieurs fichiers audio, BatchedInferencePipeline offre un moyen efficace de gérer les lots.
Filtre VAD : Le filtre VAD (Voice Activity Detection) intégré de Silero permet de filtrer les segments non vocaux, améliorant la précision de la transcription et réduisant le temps de traitement. Cette fonctionnalité peut être personnalisée avec divers paramètres.
Horodatage au niveau du mot : La bibliothèque permet de générer des horodatages précis pour les mots individuels.
Compatibilité Distil-Whisper : faster-whisper fonctionne de manière transparente avec les modèles Distil-Whisper, y compris distil-large-v3, pour une inférence encore plus rapide.

Conversion de modèles

faster-whisper facilite l'utilisation de modèles Whisper personnalisés ou affinés. Un script fourni permet de convertir les modèles compatibles avec la bibliothèque Transformers au format CTranslate2. Cela permet de charger des modèles directement à partir des noms du Hugging Face Hub ou de répertoires locaux.

ct2-transformers-converter --model openai/whisper-large-v3 --output_dir whisper-large-v3-ct2 \
--copy_files tokenizer.json preprocessor_config.json --quantization float16

Communauté et intégrations

L'écosystème faster-whisper est dynamique, avec de nombreux projets communautaires qui exploitent ses capacités. Parmi les intégrations notables, citons :

speaches : Un serveur compatible OpenAI pour faster-whisper.
WhisperX : Une bibliothèque pour la diarisation des locuteurs et des horodatages précis au niveau du mot.
whisper-ctranslate2 : Un client en ligne de commande reflétant le CLI Whisper d'origine.
Whisper-Streaming & WhisperLive : Des implémentations pour la transcription en temps réel et quasi réel.

faster-whisper se distingue comme un outil open-source hautement optimisé et polyvalent pour quiconque a besoin de capacités de reconnaissance vocale efficaces et précises. Son développement actif et le fort soutien de la communauté garantissent sa pertinence et son amélioration continues.

Original Article: Voir l’original