AI‑Video‑Transcriber: Transcribe y Resume Cualquier Video con IA
AI‑Video‑Transcriber – Transcribe y Resume Cualquier Video con IA
En una era donde el contenido de video está en todas partes – desde tutoriales de YouTube hasta clips cortos de TikTok – la capacidad de convertir rápidamente el contenido hablado en texto buscable y legible se ha vuelto indispensable. Ya sea que seas un creador de contenido buscando redactar subtítulos, un investigador revisando entrevistas o un desarrollador construyendo una nueva plataforma multimedia, necesitas una solución confiable, de código abierto, que soporte docenas de sitios de video y docenas de idiomas.
Conoce AI‑Video‑Transcriber
AI‑Video‑Transcriber es un asistente de IA listo para desplegar que toma una URL de video, descarga los medios, ejecuta un modelo Whisper de última generación para una transcripción precisa de voz a texto, refina el transcript y finalmente produce un resumen conciso y bien estructurado en el idioma que elijas. Todo esto ocurre en una interfaz web respaldada por FastAPI y se ejecuta sin esfuerzo en un portátil o en un contenedor Docker.
Características clave
- 🔄 Soporta más de 30 plataformas de video mediante yt‑dlp (YouTube, TikTok, Bilibili, Facebook, Instagram, Twitter, etc.)
- 🎤 Transcripción precisa usando Faster‑Whisper con tamaños de modelo seleccionables (tiny, base, small, medium, large)
- ✍️ Corrección automática de errores tipográficos, completado de frases y estructuración en párrafos
- 🗣️ Resúmenes multilingües (Inglés, chino, japonés, coreano, español, francés, alemán, portugués, ruso, árabe y más)
- 🔤 Traducción automática con GPT‑4o cuando el idioma de resumen solicitado difiere del idioma fuente
- 📱 Interfaz amigable para móviles y retroalimentación de progreso en tiempo real
- ⚙️ Listo para Docker, o instala con un simple script shell
- 📦 Código abierto bajo la licencia Apache‑2.0 – libre para bifurcar, modificar y redistribuir
Por Qué Esta Herramienta Destaca
| Criterio | AI‑Video‑Transcriber | Competidores | Notas |
|---|---|---|---|
| Código abierto | ✔️ | Mixto (mayoria cerrada) | Sin bloqueo de proveedor |
| Multiplataforma | ✔️ | Varía | Aprovecha el ecosistema de plugins de yt‑dlp |
| Velocidad/precisión | Modelos Fast‑Whisper | Google Speech‑to‑Text | Exactitud comparable, menor costo |
| Cobertura de idiomas | 100+ a través de Whisper | Limitado | Ideal para equipos globales |
| Resumen | Alternativa GPT‑4o | Solo API de OpenAI | Añade valor con resumen IA |
| Despliegue | Docker y CLI | Docker o manual | Configuración de entorno simplificada |
Guía rápida de inicio
Tienes tres formas de poner en marcha la herramienta.
1. Instalación automática con Shell
# Clonar el repositorio
git clone https://github.com/wendy7756/AI-Video-Transcriber.git
cd AI-Video-Transcriber
# Hacer el script de instalación ejecutable
chmod +x install.sh
# Ejecutarlo
./install.sh
http://localhost:8000.
2. Despliegue vía Docker Compose
# Clonar el repositorio
git clone https://github.com/wendy7756/AI-Video-Transcriber.git
cd AI-Video-Transcriber
# Copiar plantilla de entorno y establecer tu clave
cp .env.example .env
# Editar .env y establecer OPENAI_API_KEY
# Iniciar servicios
docker-compose up -d
WHISPER_MODEL_SIZE dentro de .env para equilibrar velocidad y memoria.
3. Instalación manual
# Crear un entorno virtual (macOS o Linux)
python3 -m venv venv
source venv/bin/activate
pip install -r requirements.txt
# Instalar FFmpeg
brew install ffmpeg # macOS
# o
sudo apt update && sudo apt install ffmpeg
# Ejecutar el servidor
python3 start.py
Tip: Para videos largos (>30 min), inicia el servidor con
--prodpara evitar desconexiones de SSE:
python3 start.py --prod
Cómo funciona en el fondo
flowchart TD
A[Usuario introduce URL de video] --> B[yt‑dlp descarga video]
B --> C[ffmpeg extrae audio]
C --> D[Fast-Whisper transcribe]
D --> E[Optimizador de texto (errores/correcciones)
E --> F[OpenAI GPT-4o para resumen o traducción]
F --> G[Interfaz web muestra resultados y enlaces de descarga]
- yt‑dlp: Maneja más de 200 sitios de medios, garantizando cobertura amplia.
- Faster‑Whisper: Modelo de voz liviano y compatible con GPU.
- OpenAI GPT‑4o: Añade limpieza contextual, parafraseo y generación de resúmenes.
- FastAPI: Proporciona endpoints REST de baja latencia tanto para backend como para frontend.
Preguntas frecuentes
Q: ¿El programa es gratuito? A: La herramienta es de código abierto bajo Apache‑2.0. El único costo es la clave API opcional de OpenAI para resúmenes y traducciones.
Q: Mi resumen está en otro idioma—puedo obtener una traducción? A: Sí. Si el idioma de resumen seleccionado difiere del idioma detectado en el transcript, la UI genera automáticamente un transcript traducido usando GPT‑4o.
Q: La transcripción es lenta en mi portátil—qué puedo hacer?
A: Reduce el tamaño del modelo Whisper (tiny o base). Alternativamente, ejecuta en Docker en una máquina con GPU.
Q: Encontré un error 500—por qué?
A: La mayoría de la vez es un problema de entorno. Asegúrate de que FFmpeg esté instalado, tu entorno virtual esté activo y se haya establecido una OPENAI_API_KEY válida. Revisa los logs con docker logs o la salida de la consola.
Q: ¿Cuánta memoria necesita? A: Las imágenes Docker base son ~128 MB. Durante la transcripción necesitarás de 0.5–2 GB según la longitud del video y el tamaño del modelo. Para uso intensivo, asigna al menos 4 GB de RAM al contenedor.
Consejos de rendimiento
| Acción | Impacto |
|---|---|
Usar tiny o base Whisper |
Más rápido, menos memoria |
| Desplegar modelos a GPU | Transcripciones más rápidas en gran medida |
Ejecutar en modo producción (--prod) |
Mantiene las conexiones SSE activas para tareas largas |
Limitar memoria Docker (-m 1g) |
Previene fallos por falta de memoria |
| Usar una red rápida | Descargas de video más rápidas |
Contribuir
¡Nos encantan las contribuciones de la comunidad! Ya sea que añadas un nuevo dialecto Whisper, mejores la UX del frontend o optimices la imagen Docker, todos los pull requests son bienvenidos.
- Fork the repo.
- Create a feature branch:
git checkout -b feature/tu-idea-genial. - Commit and push.
- Abre un Pull Request.
También considera abrir issues para bugs, peticiones de funciones o sugerencias de documentación.
Resumen
AI‑Video‑Transcriber permite a cualquiera convertir el audio de cualquier video en texto limpio y resumido – todo código abierto, multiplataforma y con la última IA. Sin tableros propietarios, sin muros de pago—solo copia‑pega un enlace, elige un idioma y deja que la IA haga el trabajo pesado. Obtén el código, lánzalo en minutos y comienza a transcribir.
Enlaces
- Repositorio: https://github.com/wendy7756/AI-Video-Transcriber
- Docker Hub: https://hub.docker.com/r/ai-video-transcriber
- Documentación: https://github.com/wendy7756/AI-Video-Transcriber#readme