AIBit-Descubre proyectos de código abierto AIBit-Descubre proyectos de código abierto
Proyectos de código abiertoWeb Scraping y DatosAgentes de IA y AutomatizaciónHerramientas y recursos de IA
Más
Aprendizaje y tutorialesInvestigación y Benchmarks de IADesarrollo y SeguridadWeb e InfraestructuraCreación de Medios y ContenidoHardware e IA en el bordeRecursos para Startups
AIBit-Descubre proyectos de código abierto › Herramientas y recursos de IA› IA de Voz y Audio

21 de mayo de 2026

OpenLess: La herramienta de entrada de voz con IA de código abierto para desarrolladores

Deja de escribir, empieza a hablar. OpenLess es una herramienta multiplataforma centrada en la privacidad que convierte tu voz en texto estructurado y pulido por IA directamente donde se encuentre tu cursor.

  • 14 may 2026

    Supertonic: TTS multilingüe ultrarrápido y en el dispositivo

    Descubra Supertonic, un potente sistema de texto a voz de código abierto que lleva la síntesis de voz multilingüe de alta calidad directamente a su dispositivo. Al aprovechar ONNX Runtime, Supertonic elimina la necesidad de API en la nube, garantizando una privacidad total y un rendimiento casi instantáneo. Tanto si es un desarrollador que trabaja con Python, C++, Rust o tecnologías web, este motor ligero ofrece soporte para 31 idiomas y una precisión de lectura superior para textos complejos. Aprenda cómo este modelo de 99 millones de parámetros supera a alternativas más grandes en velocidad y eficiencia, lo que lo convierte en la elección perfecta para la computación en el borde, aplicaciones móviles y proyectos basados en navegador. Explore el futuro de la generación de voz local, privada y ultrarrápida hoy mismo.

  • 12 abr 2026

    VoxCPM2: TTS multilingüe de 2B con clonación y diseño de voz

    Descubre VoxCPM2, el innovador modelo TTS sin tokenizador de 2B parámetros que soporta 30 idiomas con audio de calidad de estudio a 48kHz. Crea voces desde descripciones de texto, clona cualquier hablante con fidelidad perfecta y logra rendimiento en tiempo real (RTF 0.13 en RTX 4090). Totalmente de código abierto bajo Apache 2.0 con API de Python, CLI, demo web, ajuste fino LoRA y listo para despliegue en producción. Supera a modelos comerciales en benchmarks TTS principales.

  • 9 abr 2026

    SpeechRecognition: La biblioteca definitiva de Python para reconocimiento de voz a texto

    Descubre SpeechRecognition, la biblioteca de Python más completa para convertir voz en texto. Soporta motores sin conexión como CMU Sphinx, Vosk y OpenAI Whisper, además de APIs en la nube de Google, OpenAI, Groq y Cohere. Instala con un solo comando pip e inicia la transcripción de entrada de micrófono o archivos de audio al instante. Perfecta para asistentes de voz, aplicaciones de transcripción y grabadoras de reuniones. Incluye guías detalladas de configuración para PyAudio, PocketSphinx y consejos de solución de problemas.

  • 15 mar 2026

    VoiceChanger: Conversión de Voz en Tiempo Real de Código Abierto

    Descubre cómo VoiceChanger te permite transformar la voz al instante utilizando modelos de IA de vanguardia como Beatrice y RVC. Este proyecto de código abierto cuenta con una GUI multiplataforma, soporte Docker, modo red y tutoriales para AMD Linux y Google Colab. Ya sea que seas desarrollador de juegos, streamer o aficionado, aprende a instalar, configurar y actualizar el software en minutos y explora el emocionante mundo de la manipulación de voz en tiempo real.

  • 15 mar 2026

    VibeVoice: El conjunto de herramientas de IA de voz de código abierto de Microsoft

    Explora VibeVoice, el kit de herramientas de código abierto de vanguardia de Microsoft que ofrece ASR de larga duración, TTS multihablante y streaming en tiempo real a desarrolladores e investigadores. Aprende a aprovechar su canal de ASR de 60 minutos, su TTS de 90 minutos y su modelo ligero en tiempo real, y descubre la integración con Hugging Face Transformers para un despliegue sin problemas.

  • 13 mar 2026

    RCLI: IA de voz en dispositivo para macOS – Sin nube, rápido

    RCLI convierte tu Mac en un asistente de voz totalmente local y explorador de documentos. Impulsado por el motor GPU MetalRT de Apple Silicon, ejecuta STT, LLM y TTS de última generación localmente—sin nube, sin claves API. Descubre cómo instalarlo con Homebrew, controlar 38 acciones de macOS, incrustar PDFs con RAG <4 ms y comparar MetalRT con llama.cpp. Ya seas desarrollador, usuario avanzado o entusiasta de la IA, RCLI trae la IA local más vanguardista a tu escritorio con un mínimo de configuración. Descubre por qué este repo es imprescindible para cualquiera que esté construyendo herramientas macOS impulsadas por voz.

  • 11 mar 2026

    LiveTalking: Humano Digital de IA en Tiempo Real con Sincronización de Labios

    Descubre LiveTalking, el potente proyecto de código abierto para crear humanos digitales interactivos en tiempo real. Este proyecto en Python soporta múltiples modelos (wav2lip, musetalk, ernerf) con clonación de voz, streaming WebRTC y manejo de interrupciones. Despliega vía Docker, ejecuta en GPU con rendimiento de 60+ FPS y crea avatares parlantes de grado comercial. Perfecto para streamers, educadores y desarrolladores de IA que buscan soluciones de sincronización de labios listas para producción.

  • 12 feb 2026

    Construye reconocimiento de voz en tiempo real en Rust con Voxtral Mini

    Descubre cómo convertir un modelo de 4 B parámetros, de código abierto, en un reconocedor de voz ligero y sin dependencias que se ejecute nativamente en tu máquina o directamente en el navegador. Esta guía cubre compilaciones en Rust, compilación WASM/WebGPU, cuantización de modelos y demostraciones en vivo—desbloqueando transcripción de alto rendimiento y baja latencia con solo unos pocos comandos.

  • 10 feb 2026

    Faster Whisper ChickenRice: Transcripción japonés‑chino

    Descubre ChickenRice, una herramienta de transcripción y traducción de código abierto y acelerada por GPU, construida sobre Faster Whisper. Convierte audio o video japonés directamente en subtítulos chinos en formatos SRT, VTT o LRC, con inferencia opcional en la nube mediante Modal. Aprende cómo instalar, elegir la versión adecuada de CUDA, ejecutar scripts bat locales o lanzar Modal para entornos sin GPU, y personalizar la salida con configuraciones avanzadas—todo mientras mantienes un rendimiento de alto nivel y una licencia MIT.

  • 5 feb 2026

    ACE-Step 1.5: Open‑Source Music Model Outperforms Commercial

    ACE‑Step 1.5: Una innovación en generación local de música, ofreciendo calidad de grado comercial en GPUs de consumo e incluso CPU, en una fracción del tiempo que muchos de los sistemas pagados. Este artículo guía a través de la arquitectura del proyecto, cómo ponerlo en marcha en Windows o Linux, ejecutarlo vía Gradio o una API REST y personalizarlo con entrenamiento LoRA. Sea cual sea tu rol—desarrollador, podcaster o productor musical—descubre cómo aprovechar el diseño híbrido LM‑DiT de ACE‑Step, el soporte multilingüe de letras y las potentes herramientas de edición—todo desde tu propia máquina, no de la nube.

  • 4 feb 2026

    Voicebox: Estudio de Voz de Código Abierto Potenciado por Qwen3‑TTS

    Voicebox es un estudio de síntesis de voz local‑first, enfocado en la privacidad, que funciona completamente en tu máquina. Construido con Rust moderno, React y FastAPI, permite clonar voces a partir de segundos de audio, editar líneas de tiempo multitrack y generar discursos mediante Qwen3‑TTS—todo sin suscripción a la nube. Ya seas podcaster, desarrollador de juegos o defensor de la accesibilidad, Voicebox ofrece una alternativa rápida, totalmente de código abierto, a los servicios comerciales. Este artículo recorre las funciones principales del proyecto, la pila tecnológica, opciones de despliegue y casos de uso en el mundo real.

Anterior 1 / 3 Siguiente

Herramientas de IA, proyectos de código abierto, tutoriales y recursos seleccionados para desarrolladores que trabajan con inteligencia artificial.

Términos de servicio Política de privacidad © 2026 AIBit-Descubre proyectos de código abierto