Las organizaciones de diversos sectores enfrentan grandes desafíos al convertir grabaciones de reuniones o presentaciones en documentos estructurados. El proceso de elaborar materiales a partir de estas presentaciones implica un esfuerzo manual considerable, como revisar grabaciones para identificar cambios de diapositivas, transcribir el contenido hablado, capturar y organizar capturas de pantalla, sincronizar elementos visuales con notas del ponente y dar formato al contenido. Estos obstáculos pueden repercutir negativamente en la productividad y la escalabilidad, especialmente cuando se trata de gestionar múltiples grabaciones de presentaciones, sesiones de conferencias, materiales de capacitación y contenido educativo.
Para simplificar este proceso, ha surgido una solución automatizada y sin servidor que promete ser muy eficaz: Amazon Bedrock Data Automation. Esta herramienta de análisis de video permite transformar grabaciones de seminarios web en minutas completas. Con su implementación, es posible transcribir diálogos y detectar cambios de diapositivas, utilizando modelos de base de Amazon Bedrock para refinar las transcripciones. Todo esto se orquesta mediante funciones personalizadas de AWS Lambda y AWS Step Functions.
La automatización de datos de Amazon Bedrock emplea inteligencia artificial generativa para convertir datos multimodales, como imágenes y videos, en formatos estructurados personalizables. Estas funciones abarcan desde resúmenes de escenas en videos hasta la identificación de contenido explícito, y permiten extraer segmentos de audio y diversos planos de videos.
El flujo de trabajo de esta solución se inicia cuando se sube un video a Amazon Simple Storage Service (S3), lo que provoca una notificación de evento mediante Amazon EventBridge, comenzando así el procesamiento del video. Amazon Bedrock Data Automation lleva a cabo un trabajo de transformación para identificar cambios, y una vez completado, sincroniza el contenido hablado con las imágenes visuales. Además, se genera de manera paralela un paso que crea capturas de pantalla de las diapositivas y refina las transcripciones, corrigiendo errores y eliminando disfluencias del habla.
Finalmente, se crean las minutas usando la biblioteca Python-PPTX, combinando las transcripciones refinadas con las imágenes generadas. Estos materiales se almacenan en Amazon S3, listos para su distribución. Esta solución no solo reduce significativamente el esfuerzo manual necesario para la creación de materiales, sino que también facilita la integración y escalabilidad en organizaciones de diferentes tamaños y sectores.