Edge-TTS: Texto a Voz gratuito desde Python

Aprovecha el Poder de Microsoft Edge TTS con la Biblioteca Python edge-tts

Para desarrolladores que buscan una solución versátil y gratuita para la generación de texto a voz (TTS), la biblioteca Python edge-tts ofrece una opción de código abierto excepcional. Este proyecto utiliza de manera ingeniosa el servicio TTS en línea de Microsoft Edge, permitiendo a los usuarios convertir texto en voz directamente desde sus aplicaciones Python sin necesidad de hardware especializado, dependencias del sistema operativo Windows o costosas claves API.

Instalación y Uso sin Esfuerzo

Empezar con edge-tts es muy sencillo. Un simple comando pip install edge-tts es todo lo que se requiere para integrar sus capacidades en tu entorno de desarrollo. Para aquellos que principalmente pretenden usar la interfaz de línea de comandos, pipx install edge-tts es una alternativa recomendada.

La biblioteca proporciona una interfaz de línea de comandos fácil de usar para una generación rápida de audio. Puedes crear fácilmente archivos de audio y sus correspondientes archivos de subtítulos con comandos como:

$ edge-tts --text "Hola, mundo!" --write-media hello.mp3 --write-subtitles hello.srt

Para reproducir inmediatamente, se puede usar el comando edge-playback:

$ edge-playback --text "Hola, mundo!"

Cabe destacar que edge-playback requiere el reproductor de línea de comandos mpv para la reproducción, excepto en sistemas Windows.

Personalización y Selección de Voces

edge-tts destaca por su flexibilidad. Puedes cambiar sin esfuerzo entre la gran variedad de voces compatibles con el servicio de Microsoft usando la opción --voice. Para explorar las voces disponibles y sus características, simplemente ejecuta:

$ edge-tts --list-voices

Este comando genera una lista completa de voces, incluyendo sus nombres, géneros, categorías de contenido y personalidades de voz, lo que te permite seleccionar el perfil vocal perfecto para tus necesidades.

Además, ajustar la salida de voz es fácilmente alcanzable. Parámetros como la velocidad del habla, el volumen y el tono se pueden modificar usando las opciones --rate, --volume y --pitch, respectivamente. Se necesita una consideración especial al usar valores negativos, donde debes agregar un signo de porcentaje (por ejemplo, --rate=-50%) para evitar interpretaciones erróneas por parte de la línea de comandos.

Integración Programática

Más allá de su utilidad en la línea de comandos, edge-tts está diseñado para una integración fluida en proyectos Python. Los desarrolladores pueden importar y utilizar el módulo directamente en su código, abriendo posibilidades para crear funcionalidades dinámicas de texto a voz en una amplia gama de aplicaciones, desde bots interactivos hasta herramientas de creación de contenido.

Varios otros proyectos, como hass-edge-tts y Podcastfy, ya aprovechan el poder del módulo edge-tts, demostrando su practicidad y amplia adopción dentro de la comunidad de desarrolladores.

Con sus sólidas características, facilidad de uso y naturaleza de código abierto, edge-tts se destaca como una herramienta valiosa para cualquiera que busque incorporar capacidades de texto a voz de alta calidad y accesibles en sus proyectos Python.

Artículo original: Ver original

Compartir este artículo