Otras noticias

Transmisión de Audio Multicanal a Amazon Transcribe con API de Web Audio

Publicado el 09/06/2025
Por Maria José M.R.

En un avance significativo en el ámbito de la transcripción de audio, Amazon ha implementado una función innovadora de transmisión de transcripciones multicanal a través de su plataforma Amazon Transcribe. Esta nueva herramienta permite a los usuarios integrar múltiples fuentes de audio, lo cual es especialmente útil en entornos colaborativos. Utilizando la API de Web Audio de JavaScript, se ofrece una forma de conectar y combinar diferentes fuentes de audio, como videos, archivos de audio o micrófonos, para generar transcripciones efectivas.

El artículo expone un proceso detallado para aprovechar esta tecnología, centrándose en la utilización de dos micrófonos como fuentes de audio. La idea consiste en fusionar estos micrófonos en un canal de audio estéreo que posteriormente se envía a Amazon Transcribe para su transcripción. Se presenta el código fuente para una aplicación desarrollada en Vue.js, destacando su flexibilidad para adaptarse a diversos dispositivos y fuentes de audio.

Una de las principales ventajas de esta metodología es la capacidad de obtener transcripciones de dos fuentes dentro de una sola sesión en Amazon Transcribe. Esto no solo genera un ahorro significativo en costes, sino que también simplifica el proceso de recopilación de datos.

Sin embargo, el uso de dos micrófonos presenta ciertos desafíos. La identificación de hablantes a través de etiquetas de Amazon Transcribe puede ser problemática, ya que estas se asignan aleatoriamente al inicio de la sesión. Esto exige que, una vez iniciada la transmisión, los resultados deban ser mapeados en la aplicación del usuario, lo que puede complicarse si las voces son similares. Además, puede haber superposición de voces si ambos hablantes participan simultáneamente en una única fuente de audio. La aplicación de micrófonos direccionales y una gestión adecuada del volumen son estrategias recomendadas para mitigar estos problemas.

Para poner en marcha esta solución, se requieren ciertos prerrequisitos, como la configuración de claves de acceso a AWS. El artículo detalla los pasos necesarios para iniciar la aplicación, incluyendo la administración de las conexiones de los micrófonos y el procesamiento del audio a través de la API de Web Audio. Gradualmente, se introduce el código necesario para fusionar el audio y transmitirlo a Amazon Transcribe en formato PCM.

El uso de trabajos de audio (Audio Worklet) para un procesamiento de audio de baja latencia se destaca como una de las características más innovadoras de esta implementación. Esto permite no solo la fusión de los canales de audio, sino también la codificación de los datos en tiempo real.

En conclusión, esta nueva funcionalidad de Amazon Transcribe representa una herramienta valiosa para la transcripción de audio en tiempo real, aplicable en una variedad de escenarios, desde la grabación de reuniones hasta la creación de interfaces controladas por voz. Con la posibilidad de experimentar esta solución de primera mano, tanto desarrolladores como empresarios tienen ahora la oportunidad de explorar nuevas aplicaciones.