Whisper-large-v3: Innovación en reconocimiento automático de voz y traducción

El campo de la Inteligencia Artificial ha dado un paso adelante con la introducción de Whisper-large-v3, el último modelo de OpenAI para el reconocimiento automático del habla (ASR) y traducción de voz. Este desarrollo se basa en un entrenamiento exhaustivo sobre 680 mil horas de datos etiquetados, demostrando una capacidad notable para generalizar en diversos conjuntos de datos y dominios sin necesidad de ajustes adicionales.

Propuesto en el artículo «Robust Speech Recognition via Large-Scale Weak Supervision» por Alec Radford y su equipo en OpenAI, Whisper-large-v3 representa una evolución significativa en el mundo del ASR. La arquitectura de este modelo sigue la línea de sus predecesores con algunas diferencias menores, como el uso de 128 contenedores de frecuencia Mel en lugar de 80 y un nuevo token de idioma para el cantonés.

Este modelo, que ahora cuenta con 1 millón de horas de audio débilmente etiquetado y 4 millones de horas de audio pseudolabelado recopilado a través de Whisper-large-v2, fue entrenado durante 2.0 épocas sobre este conjunto de datos mixtos. Whisper-large-v3 ha demostrado una reducción del 10% al 20% en errores en comparación con su versión anterior, Whisper-large-v2.

Detalles del modelo Whisper

Whisper es un modelo basado en Transformer con una estructura de codificador-decodificador, entrenado tanto en datos exclusivamente en inglés como en datos multilingües. Los modelos en inglés se centraron en el reconocimiento del habla, mientras que los multilingües abordaron tanto el reconocimiento del habla como la traducción. Los modelos de Whisper vienen en cinco configuraciones de diferentes tamaños, todos disponibles en Hugging Face Hub.

«La implementación de Whisper-large-v3 de OpenAI es un claro ejemplo de cómo la infraestructura avanzada en la nube y el poder de procesamiento de las GPUs están impulsando significativamente el progreso en el campo de la inteligencia artificial. Este modelo demuestra la capacidad de manejar grandes volúmenes de datos y una variedad de idiomas, destacando la importancia de las GPUs en el procesamiento eficiente y la optimización de modelos de IA complejos. Este avance no solo representa un logro técnico notable, sino que también abre nuevas posibilidades para aplicaciones prácticas en múltiples industrias.» según comenta David Carrero Fernández-Baillo, uno de los fundadores de Stackscale, una empresa europea líder en infraestructura, soluciones con GPUs y cloud privado.

Uso y mejoras en velocidad y memoria

El modelo Whisper-large-v3 es compatible con Transformers de Hugging Face y puede utilizarse para transcribir archivos de audio de cualquier longitud. Este modelo emplea un algoritmo fragmentado para transcribir archivos de audio de larga duración, lo cual es prácticamente 9 veces más rápido que el algoritmo secuencial propuesto por OpenAI.

Además, se pueden aplicar mejoras adicionales en velocidad y memoria a Whisper-large-v3, como el uso de Flash-Attention 2 y BetterTransformers, dependiendo de las capacidades de la GPU del usuario.

Fine-Tuning y uso evaluado

Aunque Whisper muestra una fuerte capacidad de generalización, su rendimiento predictivo puede mejorarse aún más para ciertos idiomas y tareas a través de ajustes finos. Los usuarios principales de estos modelos son investigadores de IA que estudian robustez, generalización, capacidades, sesgos y limitaciones del modelo actual. Sin embargo, Whisper también es útil como solución de ASR para desarrolladores, especialmente para el reconocimiento del habla en inglés.

Datos de entrenamiento y rendimiento

El modelo se entrenó en 1 millón de horas de audio débilmente etiquetado y 4 millones de horas de audio pseudolabelado. Aunque muestra resultados sólidos en el reconocimiento del habla en aproximadamente 10 idiomas, su rendimiento es desigual en distintos idiomas y acentos.

Implicaciones amplias

Se espera que las capacidades de transcripción de los modelos Whisper se utilicen para mejorar las herramientas de accesibilidad. Sin embargo, se recomienda no utilizar estos modelos para transcribir grabaciones de individuos sin su consentimiento ni para clasificaciones subjetivas.

Este modelo representa un avance significativo en el ámbito del reconocimiento automático del habla y la traducción, marcando un nuevo hito en la trayectoria de la inteligencia artificial aplicada a la comunicación humana.

Scroll al inicio