Las empresas están adoptando con entusiasmo modelos de lenguaje de gran escala a través de Amazon Bedrock para obtener conclusiones valiosas de sus datos internos. Este servicio, completamente gestionado, ofrece una amplia gama de modelos de inteligencia artificial de proveedores líderes como AI21 Labs, Anthropic, Cohere, Meta, Mistral AI, Stability AI, y Amazon, todo a través de una API única. Además, Amazon Bedrock garantiza la seguridad y privacidad necesarias para desarrollar aplicaciones de inteligencia artificial generativa, con un fuerte énfasis en la responsabilidad.
Un reto común para las organizaciones que despliegan inteligencia artificial conversacional es el tiempo de respuesta a consultas complejas que requieren lógica de razonamiento y acción (ReAct). A pesar de que las APIs son rápidas para preguntas específicas, las consultas más complicadas pueden ralentizarse, afectando la experiencia del usuario, especialmente en industrias altamente reguladas. Un ejemplo de ello es una institución financiera global con más de 1.5 billones de dólares en activos bajo gestión que enfrentó este problema, buscando una solución que satisficiera sus rigurosos protocolos de seguridad sin comprometer la rapidez de las respuestas.
AWS AppSync emerge como una solución eficaz. Este servicio completamente gestionado permite a los desarrolladores crear APIs GraphQL sin servidor con capacidades en tiempo real, utilizando suscripciones junto con streaming de Amazon Bedrock para ofrecer respuestas incrementales y optimizar la experiencia del usuario.
La solución implementada utiliza AWS AppSync para iniciar el flujo de trabajo de manera asíncrona. Una función Lambda interactúa con la API de streaming de Amazon Bedrock, y a medida que el modelo genera tokens, estos se transmiten al interfaz de usuario mediante mutaciones y suscripciones de AWS AppSync.
La arquitectura de esta solución implica varios pasos que garantizan respuestas en tiempo real desde un LLM en Amazon Bedrock al usuario. La aplicación de interfaz se suscribe a una conexión WebSocket, y cuando el usuario realiza una consulta, se invoca una función GraphQL que publica un evento en Amazon SNS. Esto desencadena una función Lambda orquestadora que recibe y transmite los tokens en tiempo real.
Gracias a esta integración de Amazon Bedrock y AWS AppSync, una entidad financiera logró reducir los tiempos de respuesta para consultas complejas de 10 segundos a solo entre 2 y 3 segundos. Este avance no solo mejora la satisfacción del usuario, sino que también reduce las tasas de abandono y aumenta el compromiso con las aplicaciones.