Faster Whisper ChickenRice: Transcripción japonés‑chino

ChickenRice – Una potente herramienta de transcripción japonesa a chino de código abierto

En un mundo donde videos y podcasts abarcan docenas de idiomas, la capacidad de generar subtítulos automáticamente con precisión y rapidez puede ahorrar horas de trabajo manual. ChickenRice (Faster‑Whisper‑TransWithAI) es una solución lista para usar que procesa audio o video japonés y genera subtítulos chinos (SRT, VTT, LRC) en un instante. Construido sobre el motor Faster Whisper, ultrarrápido, y respaldado por un modelo japonés a chino optimizado entrenado con 5 000 h de audio, ofrece una precisión de última generación.

Características clave

Feature Description
Aceleración por GPU Soporta CUDA 11.8, 12.2, 12.8 – perfecto para series NVIDIA RTX.
Inferencia por lotes Procesa docenas de archivos a la vez con caché automático para omitir los ya procesados.
VAD optimizado para voz Utiliza el whisper‑VAD de TransWithAI para recortar el ruido de fondo y centrarse en la voz.
Salida multi‑formato Exporta a SRT, VTT, LRC, o incluso a texto sin formato.
Inferencia en la nube La integración modal permite ejecutar el modelo en una GPU en la nube sin necesidad de hardware local.
Arranque sin código Arrastra y suelta archivos bat para modos GPU y CPU – no se necesita programación extensa.
Código abierto y MIT El código fuente, los datos y los modelos son compatibles con GPL; los contribuyentes son bienvenidos.

¿Por qué ChickenRice?

  • Alta precisión: El modelo japonés‑chino personalizado fue entrenado con un vasto conjunto de datos de audio de hablantes nativos, garantizando traducciones correctas y manejo contextual.
  • Velocidad: Faster Whisper concentra la potencia de decodificación en una única pasada, convirtiéndose en la alternativa más rápida al original Whisper.
  • Flexibilidad: Ya sea que tengas una potente RTX 3090 o solo una CPU, hay una ruta de despliegue para ti.
  • Extensibilidad: El código es limpio y modular – ajusta el generation_config.json5 o incluye tu propio modelo VAD.

Guía rápida de configuración

  1. Requisitos previos
  2. Windows 10/11 (con WSL opcional para Linux), Python 3.11+ y una GPU NVIDIA o cuenta Modal.
  3. git, conda (o pip) y la CLI modal.

  4. Clonar repositorio

    git clone https://github.com/TransWithAI/Faster-Whisper-TransWithAI-ChickenRice.git
    cd Faster-Whisper-TransWithAI-ChickenRice
    

  5. Instalar dependencias

    conda env create -f environment-cuda118.yml    # or cuda122 / cuda128
    conda activate faster-whisper-cu118
    
    O usa pip install -r requirements.txt si lo prefieres.

  6. Descargar modelos

    python download_models.py  # pulls Whisper and VAD models
    

  7. Ejecutar localmente

  8. GPU (máximo rendimiento): . un(GPU).bat
  9. CPU (respaldo): . un(CPU).bat
  10. GPU de bajo VRAM: . un(GPU,低显存模式).bat
  11. Solo video: . un(翻译视频)(GPU).bat

Arrastra tu archivo de video/audio al archivo bat correspondiente.

  1. Inferencia en la nube (opcional)
    modal token new   # register/renew your Modal token
    modal run modal_infer.py   # interactive prompt will ask for GPU type, model, files
    

Para un ejecutable pre‑construido, usa modal_infer.exe.

  1. Personalizando la salida Edita generation_config.json5 para ajustar el tamaño del haz, la temperatura o habilitar segment_merge para subtítulos más limpios.

Ejemplo de ajuste:

{
  "segment_merge": {"enabled": true, "max_gap_ms": 500, "max_duration_ms": 2000}
}

Temas avanzados

Usando Inferencia con Modal en la nube

  • ¿Por qué Modal? No tienes GPU local, o quieres escalar múltiples trabajos. Modal te ofrece una GPU T4 gratis (hasta $30/mes) y maneja la escala automáticamente.
  • Configuración: Después de ejecutar modal token new, puedes lanzar trabajos desde la línea de comandos o mediante el script modal_infer.py provisto.
  • Coste: Alrededor de $0.02–$0.05 por minuto de tiempo de GPU, según el tipo de GPU.

Procesamiento por lotes y caché

La herramienta detecta automáticamente archivos ya procesados y los omite. Esto es crucial cuando manejas grandes bibliotecas de medios; sólo vuelves a procesar los archivos que necesitan corrección.

Ampliando el kit de herramientas del modelo

Puedes reemplazar el modelo de traducción japonés‑chino por cualquier punto de control de Whisper o añadir un modelo VAD personalizado modificando el punto de entrada infer.py y el YAML de entorno.

Comunidad y soporte

  • Problemas y solicitudes de extracción: Visita el repositorio de GitHub para informar errores o enviar mejoras.
  • Telegram: Únete al chat de AI汉化组 para ayuda rápida y desarrollo colaborativo.
  • Documentación: El repositorio contiene README.md, 使用说明.txt, y el RELEASE_NOTES_CN.md para una guía detallada.

Últimos pensamientos

ChickenRice es más que un simple script de transcripción; es una tubería de grado de producción lista para YouTubers, podcasters o investigadores que necesiten subtítulos japoneses a chinos rápidos y fiables. Con aceleración por GPU, escalado en la nube sin fisuras y una licencia MIT, adoptar ChickenRice puede reducir drásticamente el tiempo de creación manual de subtítulos.

Pruébalo, bifurca el repositorio y contribuye – el próximo avance de la comunidad en transcripción asistida por IA está a solo unas líneas de código de distancia.

Artículo original: Ver original

Compartir este artículo