Faster Whisper ChickenRice: Transcripción japonés‑chino
ChickenRice – Una potente herramienta de transcripción japonesa a chino de código abierto
En un mundo donde videos y podcasts abarcan docenas de idiomas, la capacidad de generar subtítulos automáticamente con precisión y rapidez puede ahorrar horas de trabajo manual. ChickenRice (Faster‑Whisper‑TransWithAI) es una solución lista para usar que procesa audio o video japonés y genera subtítulos chinos (SRT, VTT, LRC) en un instante. Construido sobre el motor Faster Whisper, ultrarrápido, y respaldado por un modelo japonés a chino optimizado entrenado con 5 000 h de audio, ofrece una precisión de última generación.
Características clave
| Feature | Description |
|---|---|
| Aceleración por GPU | Soporta CUDA 11.8, 12.2, 12.8 – perfecto para series NVIDIA RTX. |
| Inferencia por lotes | Procesa docenas de archivos a la vez con caché automático para omitir los ya procesados. |
| VAD optimizado para voz | Utiliza el whisper‑VAD de TransWithAI para recortar el ruido de fondo y centrarse en la voz. |
| Salida multi‑formato | Exporta a SRT, VTT, LRC, o incluso a texto sin formato. |
| Inferencia en la nube | La integración modal permite ejecutar el modelo en una GPU en la nube sin necesidad de hardware local. |
| Arranque sin código | Arrastra y suelta archivos bat para modos GPU y CPU – no se necesita programación extensa. |
| Código abierto y MIT | El código fuente, los datos y los modelos son compatibles con GPL; los contribuyentes son bienvenidos. |
¿Por qué ChickenRice?
- Alta precisión: El modelo japonés‑chino personalizado fue entrenado con un vasto conjunto de datos de audio de hablantes nativos, garantizando traducciones correctas y manejo contextual.
- Velocidad: Faster Whisper concentra la potencia de decodificación en una única pasada, convirtiéndose en la alternativa más rápida al original Whisper.
- Flexibilidad: Ya sea que tengas una potente RTX 3090 o solo una CPU, hay una ruta de despliegue para ti.
- Extensibilidad: El código es limpio y modular – ajusta el
generation_config.json5o incluye tu propio modelo VAD.
Guía rápida de configuración
- Requisitos previos
- Windows 10/11 (con WSL opcional para Linux), Python 3.11+ y una GPU NVIDIA o cuenta Modal.
-
git,conda(opip) y la CLImodal. -
Clonar repositorio
git clone https://github.com/TransWithAI/Faster-Whisper-TransWithAI-ChickenRice.git cd Faster-Whisper-TransWithAI-ChickenRice -
Instalar dependencias
O usaconda env create -f environment-cuda118.yml # or cuda122 / cuda128 conda activate faster-whisper-cu118pip install -r requirements.txtsi lo prefieres. -
Descargar modelos
python download_models.py # pulls Whisper and VAD models -
Ejecutar localmente
- GPU (máximo rendimiento):
. un(GPU).bat - CPU (respaldo):
. un(CPU).bat - GPU de bajo VRAM:
. un(GPU,低显存模式).bat - Solo video:
. un(翻译视频)(GPU).bat
Arrastra tu archivo de video/audio al archivo bat correspondiente.
- Inferencia en la nube (opcional)
modal token new # register/renew your Modal token modal run modal_infer.py # interactive prompt will ask for GPU type, model, files
Para un ejecutable pre‑construido, usa modal_infer.exe.
- Personalizando la salida
Edita
generation_config.json5para ajustar el tamaño del haz, la temperatura o habilitarsegment_mergepara subtítulos más limpios.
Ejemplo de ajuste:
{
"segment_merge": {"enabled": true, "max_gap_ms": 500, "max_duration_ms": 2000}
}
Temas avanzados
Usando Inferencia con Modal en la nube
- ¿Por qué Modal? No tienes GPU local, o quieres escalar múltiples trabajos. Modal te ofrece una GPU T4 gratis (hasta $30/mes) y maneja la escala automáticamente.
- Configuración: Después de ejecutar
modal token new, puedes lanzar trabajos desde la línea de comandos o mediante el scriptmodal_infer.pyprovisto. - Coste: Alrededor de $0.02–$0.05 por minuto de tiempo de GPU, según el tipo de GPU.
Procesamiento por lotes y caché
La herramienta detecta automáticamente archivos ya procesados y los omite. Esto es crucial cuando manejas grandes bibliotecas de medios; sólo vuelves a procesar los archivos que necesitan corrección.
Ampliando el kit de herramientas del modelo
Puedes reemplazar el modelo de traducción japonés‑chino por cualquier punto de control de Whisper o añadir un modelo VAD personalizado modificando el punto de entrada infer.py y el YAML de entorno.
Comunidad y soporte
- Problemas y solicitudes de extracción: Visita el repositorio de GitHub para informar errores o enviar mejoras.
- Telegram: Únete al chat de AI汉化组 para ayuda rápida y desarrollo colaborativo.
- Documentación: El repositorio contiene
README.md,使用说明.txt, y elRELEASE_NOTES_CN.mdpara una guía detallada.
Últimos pensamientos
ChickenRice es más que un simple script de transcripción; es una tubería de grado de producción lista para YouTubers, podcasters o investigadores que necesiten subtítulos japoneses a chinos rápidos y fiables. Con aceleración por GPU, escalado en la nube sin fisuras y una licencia MIT, adoptar ChickenRice puede reducir drásticamente el tiempo de creación manual de subtítulos.
Pruébalo, bifurca el repositorio y contribuye – el próximo avance de la comunidad en transcripción asistida por IA está a solo unas líneas de código de distancia.