Las organizaciones que implementan inteligencia artificial a gran escala enfrentan un desafío crítico: equilibrar la eficiencia en el tiempo de entrenamiento de sus modelos con los costos asociados. La técnica de «checkpointing» se ha vuelto esencial para acelerar la recuperación del entrenamiento y minimizar pérdidas de tiempo, aunque tradicionalmente esto ha implicado altos costos de almacenamiento.
El entrenamiento del modelo Meta Llama 3 ilustró este dilema. Se registró al menos un fallo cada tres horas, siendo las GPU responsables del 60% de estos problemas. Los fallos restantes se debieron a redes, CPUs y discos. Esta inestabilidad puede llevar a la pérdida de días de progreso en el entrenamiento, aumentando los costos y retrasando el tiempo de entrada al mercado. Aunque los checkpoints frecuentes pueden saturar las redes y sobrecargar el almacenamiento, la búsqueda de un equilibrio se vuelve crítica.
En respuesta a estos desafíos, AWS ha introducido el «checkpointing» en capas gestionadas dentro de Amazon SageMaker HyperPod. Esta innovación está diseñada para escalar y acelerar el desarrollo de modelos de IA generativa. La solución emplea la memoria del CPU para almacenar checkpoints de forma eficiente, replicando automáticamente los datos en nodos cercanos para mejorar la fiabilidad. SageMaker HyperPod no solo detecta y repara problemas en los nodos, sino que también optimiza la estrategia de checkpointing para maximizar el rendimiento del entrenamiento.
Esta nueva función ya ha sido desplegada con éxito en grandes clústeres distribuidos, manejando desde cientos hasta más de 15,000 GPUs, y logrando un guardado de checkpoints en apenas segundos. La implementación es amigable para los usuarios sin necesidad de una experiencia técnica avanzada y se puede integrar fácilmente en scripts de entrenamiento de PyTorch.
El «checkpointing» en capas gestionadas ofrece a las organizaciones la flexibilidad de establecer la frecuencia y las políticas de retención para el almacenamiento tanto en memoria como persistente, utilizando Amazon S3 como respaldo. Esta tecnología optimiza el tiempo de recuperación y la gestión de checkpoints frente a métodos tradicionales que dependen del almacenamiento remoto persistente.
Para maximizar resultados, se recomienda configurar la escritura de checkpoints en memoria con frecuencia, mientras que las copias en Amazon S3 pueden ser menos frecuentes. Con estas capacidades, la combinación de «managed tiered checkpointing» y SageMaker HyperPod asegura un entrenamiento eficiente y robusto, incluso en entornos propensos a fallos a gran escala.