Las implementaciones modernas de modelos de lenguaje grande (LLM) están enfrentando desafíos significativos en términos de costos y rendimiento, impulsados por el aumento en el conteo de tokens. Este conteo, relacionado con la cantidad de palabras, el tamaño de las imágenes y otros factores de entrada, determina tanto los requisitos computacionales como los costos asociados. Con textos más largos, los gastos por cada solicitud de inferencia aumentan. Esta situación se ha intensificado a medida que los modelos avanzados ahora soportan hasta 10 millones de tokens para satisfacer las demandas de sistemas de generación aumentada de recuperación (RAG) y agentes de codificación que requieren grandes bases de código y documentación.

Investigaciones recientes en la industria han identificado que una parte significativa del conteo de tokens en las cargas de trabajo de inferencia es repetitiva. Documentos y fragmentos de texto aparecen frecuentemente en múltiples prompts. Esto presenta una oportunidad: al almacenar en caché el contenido reutilizado, las organizaciones pueden reducir costos y mejorar el rendimiento de sus cargas de inferencia de largo contexto.

En respuesta a estas necesidades, Amazon Web Services (AWS) ha lanzado importantes actualizaciones para el contenedor de Inferencia de Modelos Grandes (LMI). Estas mejoras de rendimiento y un mayor soporte para modelos buscan simplificar la implementación de LLM en AWS, reduciendo la complejidad operativa y logrando ganancias de rendimiento en las arquitecturas de modelos más populares.

Una de las novedades más significativas es el soporte para LMCache, que transforma la forma en que las organizaciones manejan las cargas de trabajo de inferencia de largo contexto. LMCache es una solución de almacenamiento en caché de clave-valor (KV) de código abierto que gestiona cachés KV generados por motores LLM modernos, compartiéndolos entre motores y consultas para mejorar el rendimiento de inferencia.

A diferencia de los sistemas tradicionales, LMCache reutiliza cachés KV de texto repetido, no únicamente prefijos, operando a nivel de fragmento. Identifica tramos de texto comúnmente repetidos y almacena su caché KV precomputado. Este enfoque permite un almacenamiento en múltiples niveles que abarca memoria GPU, memoria CPU y almacenamiento en disco/remoto, con un índice interno que mapea secuencias de tokens a entradas de caché KV.

Pruebas exhaustivas han demostrado mejoras transformadoras en el rendimiento para contextos repetidos, obteniendo un tiempo más reducido hasta el primer token (TTFT). Las organizaciones que implementan LMI pueden configurar la evacuación a la CPU para optimizar el rendimiento o utilizar NVMe para mayores capacidades de caché.

Las mejoras varían según el tamaño del modelo, debido a los requisitos de memoria de caché KV por token. Los modelos más grandes agotan la capacidad de caché KV de la GPU a longitudes de contexto más cortas, haciendo que LMCache sea valioso en estos contextos más cortos.

Con el apoyo de LMCache y técnicas de decodificación especulativa EAGLE, que predicen tokens futuros desde las capas ocultas del modelo, las organizaciones experimentan mejoras notables en el rendimiento de la inferencia de sus LLM. Además, las nuevas versiones del LMI ofrecen soporte ampliado para modelos de última generación y capacidades multimodales, permitiendo una implementación más eficiente y una reducción en la complejidad operativa.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Lo último

×