En un avance importante para la comunidad de inteligencia artificial, se ha introducido una innovadora solución que aborda el problema del desperdicio de capacidad de GPU en modelos de Mixture of Experts (MoE). Muchas organizaciones enfrentan el reto de pagar por capacidad de GPU inactiva al implementar múltiples modelos de IA personalizados que no justifican un uso dedicado. Para enfrentar esta situación, se desarrolló una colaboración con la comunidad de vLLM, que ha creado una solución eficiente para el servicio de Multi-Low-Rank Adaptation (Multi-LoRA) en modelos de MoE de código abierto.
Multi-LoRA es un enfoque que permite el ajuste fino de modelos sin la necesidad de volver a entrenar todos sus pesos. Esta técnica mantiene congelados los pesos originales e introduce adaptadores entrenables pequeños en las capas del modelo. Esto permite que múltiples modelos personalizados compartan la misma GPU durante la inferencia, intercambiando solo los adaptadores según la necesidad. Como resultado, cinco clientes que usan solo el 10% de una GPU pueden ser atendidos por una única GPU compartida, mejorando significativamente la eficiencia de recursos.
La solución se ha implementado en versiones locales de vLLM a partir de la versión 0.15.0, y ahora admite varias familias de modelos MoE, incluyendo GPT-OSS, Qwen3-MoE, DeepSeek y Llama MoE. También se han logrado optimizaciones beneficiosas para modelos densos como Llama3.3 70B y Qwen3 32B. Gracias a mejoras específicas para Amazon, se experimentó un aumento del 19% en Output Tokens Per Second (OTPS) y una reducción del 8% en el Time To First Token (TTFT) para el modelo GPT-OSS 20B.
El proceso de optimización comenzó identificando cuellos de botella con herramientas de profiling como NVIDIA Nsight Systems. Se descubrió que el núcleo «fused_moe_lora» presentaba la mayor latencia, y se introdujeron diversas mejoras. Entre ellas, se incluyó la lógica de salida anticipada para evitar la ejecución innecesaria de núcleos y la implementación de Programmatic Dependent Launch (PDL), lo cual permite superponer la ejecución de núcleos, resultando en un incremento significativo en el rendimiento.
La implementación de Multi-LoRA no solo ha optimizado el uso de GPU, sino que también ha aumentado la eficiencia y velocidad de los modelos de IA. Estas innovaciones son accesibles en plataformas como Amazon SageMaker y Amazon Bedrock, ofreciendo a desarrolladores y científicos de datos la oportunidad de maximizar sus recursos computacionales.