IA de Voz y Audio | AIBit-Descubre proyectos de código abierto

6 de junio de 2026

Miso TTS 8B: Un modelo de texto a voz de alta calidad y código abierto

Miso TTS 8B es un modelo de texto a voz de última generación y código abierto con 8 mil millones de parámetros, que ofrece generación de voz altamente emotiva y capacidades de clonación de voz.

24 may 2026

Voice-Pro: Una Suite Integral de IA de Audio y Doblaje de Código Abierto

Voice-Pro es una potente WebUI basada en Gradio y de código abierto que integra herramientas de vanguardia para clonación de voz, transcripción y traducción en un solo flujo de trabajo.
21 may 2026

OpenLess: La herramienta de entrada de voz con IA de código abierto para desarrolladores

Deja de escribir, empieza a hablar. OpenLess es una herramienta multiplataforma centrada en la privacidad que convierte tu voz en texto estructurado y pulido por IA directamente donde se encuentre tu cursor.
14 may 2026

Supertonic: TTS multilingüe ultrarrápido y en el dispositivo

Descubra Supertonic, un potente sistema de texto a voz de código abierto que lleva la síntesis de voz multilingüe de alta calidad directamente a su dispositivo. Al aprovechar ONNX Runtime, Supertonic elimina la necesidad de API en la nube, garantizando una privacidad total y un rendimiento casi instantáneo. Tanto si es un desarrollador que trabaja con Python, C++, Rust o tecnologías web, este motor ligero ofrece soporte para 31 idiomas y una precisión de lectura superior para textos complejos. Aprenda cómo este modelo de 99 millones de parámetros supera a alternativas más grandes en velocidad y eficiencia, lo que lo convierte en la elección perfecta para la computación en el borde, aplicaciones móviles y proyectos basados en navegador. Explore el futuro de la generación de voz local, privada y ultrarrápida hoy mismo.
12 abr 2026

VoxCPM2: TTS multilingüe de 2B con clonación y diseño de voz

Descubre VoxCPM2, el innovador modelo TTS sin tokenizador de 2B parámetros que soporta 30 idiomas con audio de calidad de estudio a 48kHz. Crea voces desde descripciones de texto, clona cualquier hablante con fidelidad perfecta y logra rendimiento en tiempo real (RTF 0.13 en RTX 4090). Totalmente de código abierto bajo Apache 2.0 con API de Python, CLI, demo web, ajuste fino LoRA y listo para despliegue en producción. Supera a modelos comerciales en benchmarks TTS principales.
9 abr 2026

SpeechRecognition: La biblioteca definitiva de Python para reconocimiento de voz a texto

Descubre SpeechRecognition, la biblioteca de Python más completa para convertir voz en texto. Soporta motores sin conexión como CMU Sphinx, Vosk y OpenAI Whisper, además de APIs en la nube de Google, OpenAI, Groq y Cohere. Instala con un solo comando pip e inicia la transcripción de entrada de micrófono o archivos de audio al instante. Perfecta para asistentes de voz, aplicaciones de transcripción y grabadoras de reuniones. Incluye guías detalladas de configuración para PyAudio, PocketSphinx y consejos de solución de problemas.
15 mar 2026

VoiceChanger: Conversión de Voz en Tiempo Real de Código Abierto

Descubre cómo VoiceChanger te permite transformar la voz al instante utilizando modelos de IA de vanguardia como Beatrice y RVC. Este proyecto de código abierto cuenta con una GUI multiplataforma, soporte Docker, modo red y tutoriales para AMD Linux y Google Colab. Ya sea que seas desarrollador de juegos, streamer o aficionado, aprende a instalar, configurar y actualizar el software en minutos y explora el emocionante mundo de la manipulación de voz en tiempo real.
15 mar 2026

VibeVoice: El conjunto de herramientas de IA de voz de código abierto de Microsoft

Explora VibeVoice, el kit de herramientas de código abierto de vanguardia de Microsoft que ofrece ASR de larga duración, TTS multihablante y streaming en tiempo real a desarrolladores e investigadores. Aprende a aprovechar su canal de ASR de 60 minutos, su TTS de 90 minutos y su modelo ligero en tiempo real, y descubre la integración con Hugging Face Transformers para un despliegue sin problemas.
13 mar 2026

RCLI: IA de voz en dispositivo para macOS – Sin nube, rápido

RCLI convierte tu Mac en un asistente de voz totalmente local y explorador de documentos. Impulsado por el motor GPU MetalRT de Apple Silicon, ejecuta STT, LLM y TTS de última generación localmente—sin nube, sin claves API. Descubre cómo instalarlo con Homebrew, controlar 38 acciones de macOS, incrustar PDFs con RAG <4 ms y comparar MetalRT con llama.cpp. Ya seas desarrollador, usuario avanzado o entusiasta de la IA, RCLI trae la IA local más vanguardista a tu escritorio con un mínimo de configuración. Descubre por qué este repo es imprescindible para cualquiera que esté construyendo herramientas macOS impulsadas por voz.
11 mar 2026

LiveTalking: Humano Digital de IA en Tiempo Real con Sincronización de Labios

Descubre LiveTalking, el potente proyecto de código abierto para crear humanos digitales interactivos en tiempo real. Este proyecto en Python soporta múltiples modelos (wav2lip, musetalk, ernerf) con clonación de voz, streaming WebRTC y manejo de interrupciones. Despliega vía Docker, ejecuta en GPU con rendimiento de 60+ FPS y crea avatares parlantes de grado comercial. Perfecto para streamers, educadores y desarrolladores de IA que buscan soluciones de sincronización de labios listas para producción.
12 feb 2026

Construye reconocimiento de voz en tiempo real en Rust con Voxtral Mini

Descubre cómo convertir un modelo de 4 B parámetros, de código abierto, en un reconocedor de voz ligero y sin dependencias que se ejecute nativamente en tu máquina o directamente en el navegador. Esta guía cubre compilaciones en Rust, compilación WASM/WebGPU, cuantización de modelos y demostraciones en vivo—desbloqueando transcripción de alto rendimiento y baja latencia con solo unos pocos comandos.
10 feb 2026

Faster Whisper ChickenRice: Transcripción japonés‑chino

Descubre ChickenRice, una herramienta de transcripción y traducción de código abierto y acelerada por GPU, construida sobre Faster Whisper. Convierte audio o video japonés directamente en subtítulos chinos en formatos SRT, VTT o LRC, con inferencia opcional en la nube mediante Modal. Aprende cómo instalar, elegir la versión adecuada de CUDA, ejecutar scripts bat locales o lanzar Modal para entornos sin GPU, y personalizar la salida con configuraciones avanzadas—todo mientras mantienes un rendimiento de alto nivel y una licencia MIT.