Otras noticias

Amazon Escala Rufus: Construyendo inferencia multinodo con chips AWS Trainium y vLLM

Publicado el 13/08/2025
Por Maria José M.R.

En un avance significativo en el ámbito de la inteligencia artificial, Amazon ha lanzado Rufus, un asistente de compras impulsado por inteligencia artificial generativa, que ya está disponible para millones de usuarios. Sin embargo, la implementación a gran escala de Rufus ha presentado numerosos desafíos que Amazon está abordando con soluciones innovadoras. Rufus se basa en un modelo de lenguaje grande (LLM) personalizado, que exige un enfoque innovador para mantener interacciones de alta calidad mientras se asegura la eficiencia en costos y baja latencia.

El equipo de Amazon ha trabajado intensamente para desarrollar una solución de inferencia multi-nodo, utilizando Amazon Trainium y vLLM, una biblioteca de código abierto que permite una atención eficiente y de alto rendimiento en la entrega de LLMs. A medida que el modelo de Rufus se expandía, también crecía la necesidad de múltiples instancias de aceleradores, dado que un único chip no puede albergar el modelo completo. Esto ha llevado a los ingenieros a innovar en la fragmentación y distribución del modelo a través de varios nodos, empleando técnicas como el paralelismo tensorial.

Las estrategias adoptadas para mejorar el rendimiento del modelo incluyen la maximización del uso de recursos de computación y memoria en diversos nodos, sin comprometer la latencia. Asimismo, se ha diseñado una infraestructura de inferencia multi-nodo para facilitar la comunicación rápida entre nodos, garantizando una integración sólida entre componentes distribuidos.

La solución implementada utiliza una arquitectura de inferencia multi-nodo con un modelo de líder/seguidor. El nodo líder es responsable de la programación de solicitudes y la orquestación, mientras que los nodos seguidores ejecutan los cálculos del modelo de forma distribuida. Esta configuración asegura que cada nodo mantenga un camino de ejecución coherente, contribuyendo a la eficiencia general del sistema.

Esta estrategia de despliegue ha permitido gestionar solicitudes a gran escala de manera eficiente, gracias a un diseño que favorece la colocación de nodos según la topología de red, minimizando la latencia. Con esta infraestructura, Amazon ha lanzado un modelo más grande que opera en decenas de miles de chips Trainium, logrando una capacidad ampliada que ofrece una experiencia de compra innovadora y una notable mejora en la interacción de los usuarios.

Con estos desarrollos, Amazon continúa fortaleciendo su posición en la inteligencia artificial, permitiendo que Rufus ofrezca un servicio de preguntas y respuestas en tiempo real, siempre disponible para los clientes.