La adopción de modelos de lenguaje de gran escala (LLMs) está revolucionando la forma en que interactuamos con la tecnología. Sin embargo, su implementación a gran escala presenta importantes desafíos, especialmente en términos de latencia en la inferencia, limitación en el throughput y altos costos de generación de texto. Estos problemas se hacen evidentes durante eventos de alta demanda como el Amazon Prime Day. En estos momentos, sistemas como Rufus, el asistente de compras impulsado por inteligencia artificial de Amazon, deben manejar una gran carga de trabajo mientras cumplen con estrictos requisitos de latencia y rendimiento.
Rufus, diseñado para ayudar a los consumidores a tomar decisiones de compra informadas, debe proporcionar respuestas precisas a consultas sobre productos y facilitar la experiencia de compra. Para ofrecer este servicio, se basa en un modelo LLM para la generación de respuestas y en un modelo de planificación de consultas que optimiza la clasificación de preguntas y recuperación de información. La eficiencia del sistema es crucial, ya que el texto se genera solo tras completar la planificación de las consultas.
De cara al Prime Day de 2024, Rufus enfrentó el desafío de gestionar millones de consultas por minuto, generando miles de millones de tokens en tiempo real, con el objetivo de mantener una latencia de 300 ms. Esto requirió repensar la implementación de LLMs a gran escala para superar los cuellos de botella en costos y rendimiento.
La implementación de la técnica de decodificación paralela resultó fundamental. Este enfoque permitió a Rufus generar múltiples tokens simultáneamente, superando las ineficiencias del método secuencial tradicional. Durante el Prime Day, el equipo de Rufus mejoró notablemente su rendimiento empleando chips de inteligencia artificial de AWS, que no solo duplicaron la velocidad de generación de texto, sino que también permitieron una reducción del 50% en los costos de inferencia.
Los resultados fueron notables: Rufus ofreció una capacidad de respuesta rápida que mejoró la experiencia del cliente. Esta combinación de decodificación paralela y soluciones de AWS facilitó un despliegue eficiente y manejó el tráfico máximo sin comprometer la calidad de las respuestas.
La integración del marco Neuronx-Distributed Inference (NxDI) y los chips de AWS representa un avance significativo para la escalabilidad y viabilidad económica de los LLMs. Esta sinergia no solo resalta el potencial de la inteligencia artificial para crear experiencias de compra más fluidas y eficientes, sino que también abre nuevas oportunidades para aplicaciones futuras en el ámbito de la tecnología de inteligencia artificial.