pyVideoTrans: la herramienta open source que quiere llevar el doblaje y la traducción de vídeo con IA al PC del creador

El auge del vídeo corto, el contenido global y la necesidad de publicar en varios idiomas están empujando a muchos creadores a buscar herramientas de traducción, subtitulado y doblaje que no dependan por completo de plataformas cerradas o suscripciones mensuales. En ese contexto, pyVideoTrans se está consolidando como uno de los proyectos open source más visibles del momento: el repositorio en GitHub supera las 16.800 estrellas, acumula alrededor de 2.000 forks y se presenta como una solución para traducir vídeos, transcribir audio, generar subtítulos y añadir doblaje con Inteligencia Artificial.

La propuesta de valor es clara. El propio repositorio describe un flujo completo que va de la transcripción automática de voz (ASR) a la traducción de subtítulos, la síntesis de voz (TTS) y la reconstrucción final del vídeo, con soporte para doblaje multirrol, separación de voces, alineación audio-vídeo y trabajo en modo CLI para procesos por lotes. También admite edición interactiva en distintas fases para corregir reconocimiento, traducción o doblaje antes de exportar el resultado final.

Eso convierte a pyVideoTrans en algo más ambicioso que un simple generador de subtítulos. La herramienta busca resolver un problema completo de localización audiovisual: tomar un vídeo en un idioma, convertir su audio en texto, traducir ese contenido, sintetizar nuevas voces y dejar el material listo para YouTube, TikTok, Instagram o cualquier otra plataforma. En la práctica, esa promesa se acerca bastante a lo que muchos creadores pagan hoy en herramientas comerciales, con la diferencia de que aquí la base es software abierto y ejecutable en el propio equipo del usuario.

Ahora bien, conviene aterrizar el mensaje. pyVideoTrans no es estrictamente “100 % local” en todos los casos por defecto, aunque sí soporta despliegue local offline. El proyecto deja claro que puede trabajar tanto con modelos locales como con una amplia variedad de APIs online. En reconocimiento de voz admite opciones como Faster-Whisper local, pero también servicios de OpenAI, Google, Azure, Alibaba o ByteDance. En traducción puede usar modelos como DeepSeek, ChatGPT, Claude, Gemini o Ollama local. Y en síntesis de voz mezcla alternativas gratuitas o locales con otras comerciales. Es decir, quien quiera una cadena completamente local puede acercarse bastante a ese objetivo, pero el software también está pensado para convivir con servicios externos.

pyvideotrans web

Ese matiz no le resta interés. De hecho, amplía mucho su utilidad. Para un creador principiante en Windows, una de las ventajas más importantes es que el proyecto ofrece una versión .exe preempaquetada para Windows 10 y 11, sin necesidad de preparar un entorno Python. El arranque es tan simple como descargar, descomprimir y ejecutar sp.exe. Para perfiles más técnicos, también existe despliegue desde código fuente en macOS, Linux y Windows, con Python 3.10 a 3.12, FFmpeg y el gestor de paquetes uv.

Otra de las funciones que más llaman la atención es la del clonado de voz. El repositorio indica integración con modelos como F5-TTS, CosyVoice y GPT-SoVITS para clonación zero-shot, lo que permite recrear voces a partir de muestras originales. Junto a eso, pyVideoTrans incorpora speaker diarization para distinguir entre distintos hablantes, una función especialmente útil en entrevistas, podcasts, documentales o vídeos con varios participantes.

También hay un componente práctico que lo hace muy atractivo para youtubers y creadores independientes: el proyecto incluye herramientas auxiliares para fusionar vídeo y subtítulos, alinear audio con imagen, separar voces y operar en modo batch. Esto lo aleja de la idea de “app de traducción” y lo acerca más a un pequeño entorno de trabajo para localización audiovisual asistida por IA.

El otro gran factor que explica su tirón es el precio. pyVideoTrans está publicado bajo licencia GPL-3.0 y el repositorio lo define como un proyecto gratuito y open source. Eso no significa que todo el proceso sea gratis en todos los escenarios, porque si el usuario decide apoyarse en APIs comerciales externas tendrá que asumir esos costes. Pero sí significa que la base del software, su interfaz y buena parte de su flujo de trabajo no dependen de una suscripción cerrada.

Para el creador de contenido, la lectura es bastante sencilla: pyVideoTrans no sustituye por completo el criterio humano ni elimina los problemas legales ligados al uso de voces, doblajes o material con copyright, pero sí abre una vía muy potente para localizar vídeos en varios idiomas desde el PC, con una flexibilidad que normalmente no ofrecen las plataformas más cerradas. Y eso, en un mercado donde cada vez más creadores quieren publicar en varios idiomas sin disparar costes, explica bien por qué el proyecto está creciendo con tanta velocidad.

Qué ofrece pyVideoTrans frente a otras soluciones

FunciónpyVideoTransQué aporta
Transcripción automáticaConvierte audio y vídeo en subtítulos SRT con ASR local o por API.
Traducción de subtítulosAdmite traducción con LLM y motores MT, incluidos modelos locales y APIs online.
Doblaje multivozPermite asignar distintas voces a diferentes hablantes.
Clonado de vozIntegra F5-TTS, CosyVoice y GPT-SoVITS para voice cloning.
Uso local/offlineSí, con maticesSoporta despliegue local offline, aunque también puede trabajar con APIs externas.
Versión Windows lista para usarOfrece .exe para Windows 10/11 sin configurar Python.
CLI y procesamiento por lotesPensado también para automatización y uso en servidor.

Preguntas frecuentes

¿pyVideoTrans es realmente gratis?
Sí, el proyecto se distribuye como software open source bajo licencia GPL-3.0. Eso sí, si el usuario opta por usar APIs externas de pago para ASR, traducción o TTS, esos costes no desaparecen.

¿Se puede usar sin instalar Python en Windows?
Sí. El repositorio ofrece una versión .exe preempaquetada para Windows 10 y 11, pensada precisamente para usuarios que no quieran preparar un entorno Python.

¿Es una herramienta 100 % local?
Puede funcionar con despliegue local offline, pero no está limitada a ese modo. El software también soporta muchas APIs externas para reconocimiento, traducción y síntesis de voz.

¿Permite clonar voces?
Sí. El proyecto integra modelos como F5-TTS, CosyVoice y GPT-SoVITS para clonación de voz zero-shot.

¿Hace falta GPU para usarlo?
No necesariamente, pero para acelerar ciertas tareas el proyecto recomienda GPU. En Windows, para usar aceleración GPU indica que conviene tener CUDA 12.8 y cuDNN 9.11 instalados.

Lo último

×