Amazon SageMaker Introduce Decodificación Especulativa Adaptativa EAGLE para Acelerar la Inferencia de IA Generativa

Los modelos de inteligencia artificial generativa están en constante expansión, lo que incrementa la demanda de inferencias más rápidas y eficientes. En respuesta a esta tendencia, Amazon SageMaker AI ha implementado mejoras en su kit de herramientas de optimización de inferencias, presentando la decodificación especulativa adaptativa basada en EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency) para diversas arquitecturas de modelos. Estas innovaciones permiten acelerar la decodificación, optimizar el rendimiento con datos del usuario y desplegar modelos de alto rendimiento mediante un flujo de trabajo conocido en SageMaker AI.

EAGLE es una técnica que acelera la decodificación de grandes modelos de lenguaje al predecir tokens futuros directamente desde las capas ocultas del modelo. Estas mejoras se alinean con los patrones y dominios reales al guiar la optimización utilizando datos específicos de la aplicación, proporcionando inferencias más rápidas que reflejan las cargas de trabajo del usuario y no solamente benchmarks genéricos. SageMaker AI entrena cabezales EAGLE 3 o EAGLE 2, dependiendo de la arquitectura del modelo.

Este proceso de entrenamiento y optimización no es limitado a una acción única. Los usuarios pueden comenzar con conjuntos de datos proporcionados por SageMaker para el entrenamiento inicial, pero también tienen la flexibilidad de ajustar el modelo finamente con datos propios, logrando una performance altamente adaptativa y específica. Por ejemplo, es posible usar una herramienta como Data Capture para compilar un conjunto de datos a partir de las solicitudes en tiempo real que recibe el modelo.

SageMaker AI ahora ofrece soporte nativo para EAGLE 2 y EAGLE 3, permitiendo que cada arquitectura de modelo aplique la técnica adecuada a su diseño interno. Los usuarios pueden optar por modelos JumpStart de SageMaker o importar modelos de otros repositorios, como HuggingFace, lo que proporciona una gran flexibilidad.

La decodificación especulativa es una técnica comúnmente utilizada para acelerar inferencias sin comprometer la calidad. Usa un modelo base más pequeño para generar tokens preliminares, que luego son verificados por el modelo de destino. Empleando EAGLE, se optimizan los resultados reutilizando características del modelo objetivo, aunque la calidad depende de la selección del modelo base.

EAGLE perfecciona este proceso haciendo que el modelo actúe como su propio socio experimental. En lugar de depender de un modelo externo, el modelo examina sus propias representaciones internas para anticipar varios tokens futuros en paralelo, reduciendo los pasos lentos de inferencia y mejorando la precisión de las predicciones iniciales. Este enfoque también mitiga los cuellos de botella de memoria, aportando mejoras significativas en rendimiento.

SageMaker permite a los usuarios construir o refinar modelos EAGLE de múltiples formas: entrenándolos desde cero con conjuntos de datos abiertos curados, utilizando datos propios o comenzando desde un modelo base ya existente. Además, SageMaker JumpStart ofrece modelos EAGLE preentrenados, permitiendo a los usuarios comenzar a optimizar modelos inmediatamente.

Las mejoras derivadas de la optimización con conjuntos de datos propios reflejan las especificidades del comportamiento de cada aplicación, resultando en un rendimiento de extremo a extremo mejorado. La herramienta de optimización de inferencias está diseñada para ayudar a los desarrolladores a ofrecer aplicaciones generativas con latencias más bajas y mayor escalabilidad, ahorrando tiempo considerable en el procesamiento y manejo de datos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Lo último

×