Optimización Del Despliegue De Modelos LLM En Salesforce Con Importación De Modelos Personalizados De Amazon Bedrock

El equipo de Inteligencia Artificial de Salesforce ha dado un paso significativo en la optimización de su proceso de despliegue de modelos de lenguaje grande (LLMs) mediante la implementación de Amazon Bedrock Custom Model Import. Esta iniciativa ha buscado reducir los esfuerzos y costos asociados a la gestión de infraestructura, anteriormente un desafío que implicaba meses de trabajo en optimización de instancias, motores de servicio y configuraciones, además de requerir considerables reservas de capacidad de GPU.

La transición a Amazon Bedrock ha permitido al equipo de Salesforce concentrarse más en el desarrollo de modelos y la lógica empresarial, eliminando gran parte de la carga operativa. Este cambio fue implementado cuidadosamente para evitar interrupciones en las cargas de trabajo en producción, logrando así mantener las API y las interfaces de servicio de modelos sin alteraciones y un despliegue fluido sin tiempo de inactividad. Asimismo, la utilización de la capacidad sin servidor de Amazon Bedrock ha ayudado a preservar la infraestructura existente de la empresa.

Un aspecto destacado de la implementación fue la mejora en el proceso de entrega de modelos. Ahora, después de guardar los artefactos del modelo en un bucket de Amazon S3, el modelo se registra utilizando la API de Amazon Bedrock Custom Model Import. Esto ha reducido el tiempo de despliegue a aproximadamente una hora. Además, la eficiencia ha aumentado gracias a que Amazon Bedrock pre-carga los modelos, evitando así la necesidad de descargar los pesos al iniciar el contenedor.

Salesforce también llevó a cabo pruebas de carga para verificar la capacidad de escalabilidad de Amazon Bedrock. Los resultados fueron impresionantes, mostrando una reducción del 44% en latencia con niveles bajos de concurrencia comparado con un modelo base, además de mantener un rendimiento constante bajo cargas pesadas. La capacidad de autoescalado del servicio garantiza una respuesta efectiva a las exigencias de carga en tiempo real.

Desde la perspectiva operativa, Salesforce ha logrado una reducción del 30% en el tiempo necesario para iterar y desplegar modelos, y ha disfrutado de un ahorro de costos de hasta el 40%, aprovechando la flexibilidad de un modelo de pago por uso. Este beneficio es especialmente notable en entornos de desarrollo donde los recursos de GPU se requieren principalmente durante períodos activos.

Las lecciones aprendidas enfatizan la importancia de validar la compatibilidad del modelo antes de su despliegue y considerar el impacto de los tiempos de inicio en modelos de mayor tamaño. Para empresas que buscan simplificar el despliegue de modelos de lenguaje a gran escala, el caso de Salesforce proporciona un valioso marco para enfrentar desafíos operativos y de costos, sin comprometer el rendimiento.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Lo último

×