Otras noticias

Creación de una solución de resumen de audio sin servidores con Amazon Bedrock y Whisper

Publicado el 06/06/2025
Por Maria José M.R.

En el ámbito de los negocios, las grabaciones de reuniones, entrevistas e interacciones con clientes se han vuelto indispensables para conservar información relevante. Sin embargo, la transcripción y el resumen manual de estas grabaciones suelen ser procesos lentos y laboriosos. Con los avances en inteligencia artificial y el reconocimiento automático de voz, han surgido soluciones automatizadas que optimizan este proceso, haciéndolo más rápido y eficiente.

La protección de información personal identificable es un aspecto vital de la seguridad de datos, impulsado tanto por responsabilidades éticas como por requisitos legales. Actualmente, se emplea el modelo de fundación Open AI Whisper Large V3 Turbo, disponible en el Amazon Bedrock Marketplace. Esta plataforma ofrece acceso a más de 140 modelos a través de una API dedicada, permitiendo producir transcripciones casi en tiempo real que pueden ser luego procesadas por Amazon Bedrock para su resumen y la eliminación de información sensible.

Amazon Bedrock es un servicio completamente gestionado que facilita el acceso a modelos de alto rendimiento de compañías líderes en IA como AI21 Labs, Anthropic, Cohere, entre otras. Este servicio permite construir aplicaciones de inteligencia artificial generativa con un fuerte enfoque en la seguridad y la privacidad. Además, Amazon Bedrock Guardrails permite la supresión automática de información sensible, incluidos datos personales, apoyando las necesidades de cumplimiento y protección de datos.

El proceso comienza con la carga de un archivo a través de una aplicación frontend basada en React, alojada en Amazon CloudFront y respaldada por Amazon S3 y Amazon API Gateway. La carga del archivo desencadena una máquina de estados de Step Functions que organiza los pasos de procesamiento, utilizando modelos de inteligencia artificial y funciones Lambda para facilitar un flujo de datos sin interrupciones. Este enfoque resalta el potencial de integrar tecnologías sin servidor con IA generativa para automatizar y escalar flujos de trabajo de procesamiento de contenido.

El flujo de trabajo se estructura en varias etapas, que incluyen la transcripción de audio, la identificación de hablantes y la generación de resúmenes. Un sistema automatizado se asegura de que cada fase se complete antes de avanzar a la siguiente, con lógica de manejo de errores y reintentos incorporada. Al final, se muestra al usuario un resumen redactado de la grabación, preservando así la privacidad y cumpliendo con las normativas.

Esta solución no solo mejora la eficiencia en la gestión de información, sino que también promueve buenas prácticas de seguridad, protegiendo datos sensibles de manera efectiva. Sectores como la salud, finanzas y servicios legales, donde la privacidad del dato es primordial, se beneficiarán enormemente de la implementación de este tipo de tecnología.