VibeVoice: El conjunto de herramientas de IA de voz de código abierto de Microsoft

Introducción

El VibeVoice de Microsoft es un marco de investigación de IA de voz de próxima generación y totalmente de código abierto. Une la conversión de texto a voz (TTS) y el reconocimiento automático del habla (ASR) bajo una sola paraguas, ofreciendo una velocidad de procesamiento sin precedentes, generación con consciencia del hablante y soporte para audio de larga duración, todo manteniéndose ligero lo suficiente para ejecutarse en hardware modesto.

El repositorio, alojado en GitHub (https://github.com/microsoft/VibeVoice), ha crecido a más de 23 k estrellas y cuenta con contribuciones activas, lanzamientos frecuentes e integración con el ecosistema Hugging Face.


Características Clave Resumidas

Feature Description
ASR de Larga Duración Transcribe hasta 60 minutos de audio continuo en un solo paso. Salidas incluyen diarización del hablante, marcas de tiempo y un transcript estructurado (Quién‑Cuándo‑Qué).
TTS Multihablante Sintetiza hasta 90 minutos de audio conversacional, soportando hasta cuatro hablantes distintos por conversación. Prosodia expresiva y natural en múltiples idiomas.
TTS en Streaming en Tiempo Real Modelo ligero (0.5 B parámetros) que acepta texto en streaming, tiene ~300 ms de latencia al primer sonido y puede generar voz de larga duración durante ~10 minutos.
Inferencia Rápida Construido con el motor vLLM para inferencia acelerada por GPU, reduciendo la latencia en 3–5 × respecto a la línea base.
Soporte Multilingüe Más de 50 idiomas compatibles en ASR, más varios para TTS. La personalización de palabras clave permite a los usuarios dirigir el reconocimiento hacia vocabulario específico del dominio.
Licencia de Código Abierto MIT, fomentando la investigación y experimentación comercial bajo directrices de IA responsable.

Modelos en Detalle

1. VibeVoice‑ASR‑7B

Este modelo unificado de habla a texto acepta hasta 60 minutos de audio, lo tokeniza a una tasa de fotogramas ultra baja (7,5 Hz) utilizando tokenizadores de habla continua y ejecuta un marco de difusión de siguiente token impulsado por un Modelo de Lenguaje Grande (LLM). El resultado es una transcripción coherente que incluye atribución de hablante y marcas de tiempo precisas.

# Quick test
pip install --upgrade transformers==4.51.3
from transformers import AutoProcessor, VibeVoiceASR
model = VibeVoiceASR.from_pretrained("microsoft/VibeVoice-ASR-7B")
processor = AutoProcessor.from_pretrained("microsoft/VibeVoice-ASR-7B")
input_audio = processor(load_audio("speech.wav"), sampling_rate=16000, return_tensors="pt")
transcription = model.generate(**input_audio)
print(transcription.text)

Casos de Uso

  • Transcripción de podcasts o reuniones extensas.
  • Generación de subtítulos conscientes del hablante para contenido de video.
  • Subtitulado de baja latencia en difusión.

2. VibeVoice‑TTS‑1.5B

Un motor de TTS multihablante y de larga duración que puede manejar 90 minutos de discurso en una sola ejecución. El modelo de difusión asegura un detalle acústico de alta fidelidad mientras que un transformador semántico dirige una prosodia expresiva y contextualmente consciente.

from transformers import AutoProcessor, VibeVoiceTTS
model = VibeVoiceTTS.from_pretrained("microsoft/VibeVoice-TTS-1.5B")
processor = AutoProcessor.from_pretrained("microsoft/VibeVoice-TTS-1.5B")
inputs = processor("Hello, world!", return_tensors="pt")
audio = model.generate(**inputs)
audio.audio_output.save("output.wav")

Aspectos Destacados

  • Soporta hasta 4 hablantes con turnos naturales.
  • Síntesis multilingüe—Inglés, chino, español, francés y más.
  • Ideal para podcasts, audiolibros y simulaciones de diálogos.

3. VibeVoice‑Realtime‑0.5B

Un modelo de generación ligero y en tiempo real. Con ~300 ms de latencia al primer sonido, es perfecto para subtitulado en vivo, asistentes de voz y narración interactiva.

# Streaming demo (Colab link: https://colab.research.google.com/…)

Integración con Hugging Face Transformers

En marzo de 2026, Microsoft lanzó VibeVoice‑ASR como un modelo nativo de Hugging Face Transformers. Esto significa que ahora puedes cargarlo como cualquier otro transformador:

from transformers import VibeVoiceASR
model = VibeVoiceASR.from_pretrained("microsoft/VibeVoice-ASR-7B")

La integración también se extiende a la inferencia basada en vLLM, permitiéndote crear un servicio web GPU rápido con mínimo código.


Comenzando

  1. Clona el repositorio: git clone https://github.com/microsoft/VibeVoice.git
  2. Instala dependencias: pip install -r requirements.txt
  3. Ejecuta los demos: python demo.py --model=VibeVoice-ASR-7B
  4. Explora la página del modelo Hugging Face para claves API y puntos finales de inferencia.

La carpeta docs/ contiene notas de uso detalladas, requisitos de licencia y pautas para colaboradores.


Uso Responsable

Al igual que todas las herramientas de generación de audio de alta fidelidad, VibeVoice puede emplearse indebidamente para deepfakes o desinformación. Microsoft anima a los desarrolladores a:

  • Añadir divulgaciones claras cada vez que se utilice voz sintética.
  • Validar las transcripciones antes de publicarlas.
  • Revisar la documentación de riesgos en el repositorio.

Los modelos vienen con una licencia MIT, pero su uso debe cumplir con las leyes locales y los principios de IA responsable de Microsoft.


Comunidad y Contribuciones

Con una base de colaboradores vibrante, VibeVoice da la bienvenida a peticiones de extracción para nuevas voces, tokenizadores mejorados y mejores métricas de rendimiento. El archivo CONTRIBUTING.md explica cómo participar.


Conclusión

El VibeVoice de Microsoft democratiza la IA de voz avanzada. Ya sea que estés construyendo un estudio de podcasts, un servicio de transcripción multilingüe o una interacción de voz AR/VR, VibeVoice ofrece las herramientas que necesitas: rápidas, precisas y de código abierto. Sumérgete en el repositorio, experimenta con las APIs y únete a la comunidad que moldea el futuro de las tecnologías de voz.

Para las actualizaciones más recientes, sigue el repositorio o visita la página oficial del proyecto en https://microsoft.github.io/VibeVoice/.

Artículo original: Ver original

Compartir este artículo