AI‑Video‑Transcriber: Transcribe y Resume Cualquier Video con IA

AI‑Video‑Transcriber – Transcribe y Resume Cualquier Video con IA

En una era donde el contenido de video está en todas partes – desde tutoriales de YouTube hasta clips cortos de TikTok – la capacidad de convertir rápidamente el contenido hablado en texto buscable y legible se ha vuelto indispensable. Ya sea que seas un creador de contenido buscando redactar subtítulos, un investigador revisando entrevistas o un desarrollador construyendo una nueva plataforma multimedia, necesitas una solución confiable, de código abierto, que soporte docenas de sitios de video y docenas de idiomas.

Conoce AI‑Video‑Transcriber

AI‑Video‑Transcriber es un asistente de IA listo para desplegar que toma una URL de video, descarga los medios, ejecuta un modelo Whisper de última generación para una transcripción precisa de voz a texto, refina el transcript y finalmente produce un resumen conciso y bien estructurado en el idioma que elijas. Todo esto ocurre en una interfaz web respaldada por FastAPI y se ejecuta sin esfuerzo en un portátil o en un contenedor Docker.

Características clave

  • 🔄 Soporta más de 30 plataformas de video mediante yt‑dlp (YouTube, TikTok, Bilibili, Facebook, Instagram, Twitter, etc.)
  • 🎤 Transcripción precisa usando Faster‑Whisper con tamaños de modelo seleccionables (tiny, base, small, medium, large)
  • ✍️ Corrección automática de errores tipográficos, completado de frases y estructuración en párrafos
  • 🗣️ Resúmenes multilingües (Inglés, chino, japonés, coreano, español, francés, alemán, portugués, ruso, árabe y más)
  • 🔤 Traducción automática con GPT‑4o cuando el idioma de resumen solicitado difiere del idioma fuente
  • 📱 Interfaz amigable para móviles y retroalimentación de progreso en tiempo real
  • ⚙️ Listo para Docker, o instala con un simple script shell
  • 📦 Código abierto bajo la licencia Apache‑2.0 – libre para bifurcar, modificar y redistribuir

Por Qué Esta Herramienta Destaca

Criterio AI‑Video‑Transcriber Competidores Notas
Código abierto ✔️ Mixto (mayoria cerrada) Sin bloqueo de proveedor
Multiplataforma ✔️ Varía Aprovecha el ecosistema de plugins de yt‑dlp
Velocidad/precisión Modelos Fast‑Whisper Google Speech‑to‑Text Exactitud comparable, menor costo
Cobertura de idiomas 100+ a través de Whisper Limitado Ideal para equipos globales
Resumen Alternativa GPT‑4o Solo API de OpenAI Añade valor con resumen IA
Despliegue Docker y CLI Docker o manual Configuración de entorno simplificada

Guía rápida de inicio

Tienes tres formas de poner en marcha la herramienta.

1. Instalación automática con Shell

# Clonar el repositorio
git clone https://github.com/wendy7756/AI-Video-Transcriber.git
cd AI-Video-Transcriber

# Hacer el script de instalación ejecutable
chmod +x install.sh

# Ejecutarlo
./install.sh
El script instala dependencias de Python, configura un entorno virtual y descarga FFmpeg (si falta). Luego inicia un servidor FastAPI en http://localhost:8000.

2. Despliegue vía Docker Compose

# Clonar el repositorio
git clone https://github.com/wendy7756/AI-Video-Transcriber.git
cd AI-Video-Transcriber

# Copiar plantilla de entorno y establecer tu clave
cp .env.example .env
# Editar .env y establecer OPENAI_API_KEY

# Iniciar servicios
docker-compose up -d
Puedes ajustar WHISPER_MODEL_SIZE dentro de .env para equilibrar velocidad y memoria.

3. Instalación manual

# Crear un entorno virtual (macOS o Linux)
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt

# Instalar FFmpeg
brew install ffmpeg   # macOS
# o
sudo apt update && sudo apt install ffmpeg

# Ejecutar el servidor
python3 start.py

Tip: Para videos largos (>30 min), inicia el servidor con --prod para evitar desconexiones de SSE:

python3 start.py --prod

Cómo funciona en el fondo

flowchart TD
    A[Usuario introduce URL de video] --> B[yt‑dlp descarga video]
    B --> C[ffmpeg extrae audio]
    C --> D[Fast-Whisper transcribe]
    D --> E[Optimizador de texto (errores/correcciones)
    E --> F[OpenAI GPT-4o para resumen o traducción]
    F --> G[Interfaz web muestra resultados y enlaces de descarga]
  • yt‑dlp: Maneja más de 200 sitios de medios, garantizando cobertura amplia.
  • Faster‑Whisper: Modelo de voz liviano y compatible con GPU.
  • OpenAI GPT‑4o: Añade limpieza contextual, parafraseo y generación de resúmenes.
  • FastAPI: Proporciona endpoints REST de baja latencia tanto para backend como para frontend.

Preguntas frecuentes

Q: ¿El programa es gratuito? A: La herramienta es de código abierto bajo Apache‑2.0. El único costo es la clave API opcional de OpenAI para resúmenes y traducciones.

Q: Mi resumen está en otro idioma—puedo obtener una traducción? A: Sí. Si el idioma de resumen seleccionado difiere del idioma detectado en el transcript, la UI genera automáticamente un transcript traducido usando GPT‑4o.

Q: La transcripción es lenta en mi portátil—qué puedo hacer? A: Reduce el tamaño del modelo Whisper (tiny o base). Alternativamente, ejecuta en Docker en una máquina con GPU.

Q: Encontré un error 500—por qué? A: La mayoría de la vez es un problema de entorno. Asegúrate de que FFmpeg esté instalado, tu entorno virtual esté activo y se haya establecido una OPENAI_API_KEY válida. Revisa los logs con docker logs o la salida de la consola.

Q: ¿Cuánta memoria necesita? A: Las imágenes Docker base son ~128 MB. Durante la transcripción necesitarás de 0.5–2 GB según la longitud del video y el tamaño del modelo. Para uso intensivo, asigna al menos 4 GB de RAM al contenedor.

Consejos de rendimiento

Acción Impacto
Usar tiny o base Whisper Más rápido, menos memoria
Desplegar modelos a GPU Transcripciones más rápidas en gran medida
Ejecutar en modo producción (--prod) Mantiene las conexiones SSE activas para tareas largas
Limitar memoria Docker (-m 1g) Previene fallos por falta de memoria
Usar una red rápida Descargas de video más rápidas

Contribuir

¡Nos encantan las contribuciones de la comunidad! Ya sea que añadas un nuevo dialecto Whisper, mejores la UX del frontend o optimices la imagen Docker, todos los pull requests son bienvenidos.

  1. Fork the repo.
  2. Create a feature branch: git checkout -b feature/tu-idea-genial.
  3. Commit and push.
  4. Abre un Pull Request.

También considera abrir issues para bugs, peticiones de funciones o sugerencias de documentación.

Resumen

AI‑Video‑Transcriber permite a cualquiera convertir el audio de cualquier video en texto limpio y resumido – todo código abierto, multiplataforma y con la última IA. Sin tableros propietarios, sin muros de pago—solo copia‑pega un enlace, elige un idioma y deja que la IA haga el trabajo pesado. Obtén el código, lánzalo en minutos y comienza a transcribir.


Enlaces

  • Repositorio: https://github.com/wendy7756/AI-Video-Transcriber
  • Docker Hub: https://hub.docker.com/r/ai-video-transcriber
  • Documentación: https://github.com/wendy7756/AI-Video-Transcriber#readme
Artículo original: Ver original

Compartir este artículo