Faster Whisper ChickenRice: Transcripción japonés‑chino

February 10, 2026

Categoría: Proyectos Prácticos de Código Abierto

Etiquetas:

Open Source Transcription Faster Whisper Japanese Chinese

ChickenRice – Una potente herramienta de transcripción japonesa a chino de código abierto

En un mundo donde videos y podcasts abarcan docenas de idiomas, la capacidad de generar subtítulos automáticamente con precisión y rapidez puede ahorrar horas de trabajo manual. ChickenRice (Faster‑Whisper‑TransWithAI) es una solución lista para usar que procesa audio o video japonés y genera subtítulos chinos (SRT, VTT, LRC) en un instante. Construido sobre el motor Faster Whisper, ultrarrápido, y respaldado por un modelo japonés a chino optimizado entrenado con 5 000 h de audio, ofrece una precisión de última generación.

Características clave

Feature	Description
Aceleración por GPU	Soporta CUDA 11.8, 12.2, 12.8 – perfecto para series NVIDIA RTX.
Inferencia por lotes	Procesa docenas de archivos a la vez con caché automático para omitir los ya procesados.
VAD optimizado para voz	Utiliza el whisper‑VAD de TransWithAI para recortar el ruido de fondo y centrarse en la voz.
Salida multi‑formato	Exporta a SRT, VTT, LRC, o incluso a texto sin formato.
Inferencia en la nube	La integración modal permite ejecutar el modelo en una GPU en la nube sin necesidad de hardware local.
Arranque sin código	Arrastra y suelta archivos bat para modos GPU y CPU – no se necesita programación extensa.
Código abierto y MIT	El código fuente, los datos y los modelos son compatibles con GPL; los contribuyentes son bienvenidos.

¿Por qué ChickenRice?

Alta precisión: El modelo japonés‑chino personalizado fue entrenado con un vasto conjunto de datos de audio de hablantes nativos, garantizando traducciones correctas y manejo contextual.
Velocidad: Faster Whisper concentra la potencia de decodificación en una única pasada, convirtiéndose en la alternativa más rápida al original Whisper.
Flexibilidad: Ya sea que tengas una potente RTX 3090 o solo una CPU, hay una ruta de despliegue para ti.
Extensibilidad: El código es limpio y modular – ajusta el generation_config.json5 o incluye tu propio modelo VAD.

Guía rápida de configuración

Requisitos previos
Windows 10/11 (con WSL opcional para Linux), Python 3.11+ y una GPU NVIDIA o cuenta Modal.
git, conda (o pip) y la CLI modal.

Clonar repositorio

git clone https://github.com/TransWithAI/Faster-Whisper-TransWithAI-ChickenRice.git
cd Faster-Whisper-TransWithAI-ChickenRice

Instalar dependencias

conda env create -f environment-cuda118.yml    # or cuda122 / cuda128
conda activate faster-whisper-cu118

O usa pip install -r requirements.txt si lo prefieres.

Descargar modelos

python download_models.py  # pulls Whisper and VAD models

Ejecutar localmente
GPU (máximo rendimiento): . un(GPU).bat
CPU (respaldo): . un(CPU).bat
GPU de bajo VRAM: . un(GPU,低显存模式).bat
Solo video: . un(翻译视频)(GPU).bat

Arrastra tu archivo de video/audio al archivo bat correspondiente.

Inferencia en la nube (opcional)

modal token new   # register/renew your Modal token
modal run modal_infer.py   # interactive prompt will ask for GPU type, model, files

Para un ejecutable pre‑construido, usa modal_infer.exe.

Personalizando la salida Edita generation_config.json5 para ajustar el tamaño del haz, la temperatura o habilitar segment_merge para subtítulos más limpios.

Ejemplo de ajuste:

{
  "segment_merge": {"enabled": true, "max_gap_ms": 500, "max_duration_ms": 2000}
}

Temas avanzados

¿Por qué Modal? No tienes GPU local, o quieres escalar múltiples trabajos. Modal te ofrece una GPU T4 gratis (hasta $30/mes) y maneja la escala automáticamente.
Configuración: Después de ejecutar modal token new, puedes lanzar trabajos desde la línea de comandos o mediante el script modal_infer.py provisto.
Coste: Alrededor de $0.02–$0.05 por minuto de tiempo de GPU, según el tipo de GPU.

Procesamiento por lotes y caché

La herramienta detecta automáticamente archivos ya procesados y los omite. Esto es crucial cuando manejas grandes bibliotecas de medios; sólo vuelves a procesar los archivos que necesitan corrección.

Ampliando el kit de herramientas del modelo

Puedes reemplazar el modelo de traducción japonés‑chino por cualquier punto de control de Whisper o añadir un modelo VAD personalizado modificando el punto de entrada infer.py y el YAML de entorno.

Comunidad y soporte

Problemas y solicitudes de extracción: Visita el repositorio de GitHub para informar errores o enviar mejoras.
Telegram: Únete al chat de AI汉化组 para ayuda rápida y desarrollo colaborativo.
Documentación: El repositorio contiene README.md, 使用说明.txt, y el RELEASE_NOTES_CN.md para una guía detallada.

Últimos pensamientos

ChickenRice es más que un simple script de transcripción; es una tubería de grado de producción lista para YouTubers, podcasters o investigadores que necesiten subtítulos japoneses a chinos rápidos y fiables. Con aceleración por GPU, escalado en la nube sin fisuras y una licencia MIT, adoptar ChickenRice puede reducir drásticamente el tiempo de creación manual de subtítulos.

Pruébalo, bifurca el repositorio y contribuye – el próximo avance de la comunidad en transcripción asistida por IA está a solo unas líneas de código de distancia.

Artículo original: Ver original

Compartir este artículo