Voicebox: Estudio de Voz de Código Abierto Potenciado por Qwen3‑TTS
Voicebox: Estudio de Voz de Código Abierto Potenciado por Qwen3‑TTS
La síntesis de voz ya no pertenece únicamente a unos pocos servicios basados en la nube. Con Voicebox—una aplicación libre, local‑first construida sobre Qwen3‑TTS—los desarrolladores y creadores pueden ser dueños de sus datos de voz, editar líneas de audio multitrack como si fueran un DAW y generar discursos naturales más rápido que nunca en Apple Silicon.
¿Qué es Voicebox?
- Local‑first: todas las inferencias, clonaciones y ediciones se ejecutan en tu hardware—sin necesidad de internet, sin cuotas de suscripción.
- Código abierto: con licencia MIT, completamente impulsado por la comunidad.
- Edición multitrack: imagina un DAW que también hace texto‑a‑voz.
- Construido con stack moderno: Tauri (Rust) para el escritorio, React/TS para la interfaz, FastAPI para la API, MLX/Metal para la aceleración GPU.
- Potenciado por Qwen3‑TTS: el modelo revolucionario de Alibaba que puede clonar una voz a partir de sólo unos segundos, produciendo discursos de alta fidelidad y expresividad.
Funciones principales al instante
| Función | Descripción |
|---|---|
| Clonación de Voz | Sube un clip corto o graba directamente en la aplicación; el modelo genera un perfil de voz reutilizable en segundos. |
| Editor de Línea de Tiempo | Organiza múltiples pistas de voz en una línea de tiempo, recorta o divide clips y añade marcadores—todo con vista previa sin latencia. |
| Soporte Multilingüe | Actualmente inglés y chino, con más idiomas próximamente a medida que Qwen3‑TTS se expanda. |
| Inferencia Rápida en Apple Silicon | El backend MLX con aceleración nativa Metal brinda 4‑5× más velocidad en dispositivos M1/M2. |
| REST API | Exposición de endpoints para /generate, /profiles, etc., con documentación open‑api generada automáticamente. |
| Generación por Lotes | Crea docenas de archivos de audio en una sola petición—ideal para contenido de formato largo. |
| Transcripción | Modelo Whisper integrado para transcripción de sesiones grabadas directamente en el dispositivo. |
| Opciones de Exportación | Exporta audio en WAV, MP3 u OGG, y exporta archivos de proyecto en JSON para respaldo o compartir. |
| Privacidad y Seguridad | Ningún dato sale de tu máquina a menos que exportes explícitamente un perfil o proyecto. |
Vista de Arquitectura
graph TD
A[React‑TS Frontend] -->|REST| B[FastAPI Backend]
B -->|PyTorch/MLX| C[Qwen3‑TTS Engine]
B -->|Whisper| D[Transcription]
B -->|SQLite| E[Database]
subgraph Desktop
F[tauri (Rust)] --> A
end
subgraph Web
G[React‑TS app] --> A
end
- Frontend: React con TypeScript, Tailwind CSS, Zustand & React Query para estado y obtención de datos.
- Backend: FastAPI que ofrece una API tipada, documentación automática y rendimiento asíncrono.
- Modelos: Qwen3‑TTS y Whisper están disponibles tanto en PyTorch como en MLX, ofreciendo flexibilidad de plataforma.
- Persistencia: SQLite almacena perfiles de voz, metadatos del proyecto y historial de generación.
Cómo Empezar
1. Instalar
# En macOS (Apple Silicon)
brew install qt@5 # para dependencias de Tauri
bun install
cd backend && pip install -r requirements.txt
bun run dev # Lanza la aplicación de escritorio
Para Windows o macOS basados en Intel, descarga el MSI o ZIP desde la página de releases.
2. Clonar una Voz
- Abre la aplicación y haz clic en Create Profile.
- Graba o sube 5–10 segundos de discurso claro.
- El modelo generará un perfil llamado My Voice.
- Exporta el perfil si deseas compartirlo.
3. Crear una Historia
- Arrastra el nuevo perfil a la línea de tiempo.
- Escribe tu guion o pégalo desde un documento.
- Usa Batch Generation para sintetizar todo el guion.
- Organiza clips, recorta y mezcla usando las herramientas de la línea de tiempo.
- Exporta el mix final.
Casos de Uso donde Voicebox Brilla
| Caso de Uso | Por Qué Funciona Voicebox | Ejemplo de Aplicación |
|---|---|---|
| Producción de Podcast | Edición de línea de tiempo completa, auto‑mezcla, privacidad local | Graba al presentador con clonación de voz, mezcla automática de invitados |
| Diálogo en Juegos | Generación por lotes de líneas de diálogo para muchos personajes | Diálogos de NPCs con voces únicas, regeneración instantánea |
| Herramientas de Accesibilidad | Síntesis de voz offline para usuarios con discapacidad visual | Lector de pantalla o audiolibros en el dispositivo |
| Asistente de Voz | Integra API local con baja latencia | Construye un asistente personalizado que nunca comparte datos |
| Automatización de Contenido | Genera narraciones automáticamente para vídeos | Produce voz en off para vídeos explicativos a gran escala |
Ampliar Voicebox
- Sistema de Plugins: Añade nuevos modelos de voz (p.ej. XTTS, Bark) o efectos de audio como paquetes Tauri independientes.
- Companion Móvil: Los planes futuros incluyen una app móvil para controlar una instancia de Voicebox en el escritorio a través de LAN.
- Síntesis en Tiempo Real: Próxima funcionalidad que transmitirá audio generado a medida que se produce, facilitando presentaciones en vivo.
Comunidad y Contribución
Voicebox está diseñado para ser inclusivo y abierto:
- Contribución: Se fomentan las solicitudes de extracción; revisa
CONTRIBUTING.mdpara configuración. - Seguridad: Sigue
SECURITY.mdpara reportar problemas de manera responsable. - Releases: Nuevas versiones estables se publican en GitHub Releases.
- Documentación: Docs API completos disponibles en
http://localhost:8000/docscuando se ejecute.
Conclusión
Voicebox convierte una laptop en un estudio de voz profesional y preservador de la privacidad. Ya sea que estés prototipando un juego de voz, redactando un podcast o construyendo una herramienta de accesibilidad personal, ya no necesitas depender de costosas APIs en la nube. Súbete hoy, fork del repositorio en GitHub y comienza a crear experiencias de voz que permanezcan bajo tu control.