Las universidades dedicadas a la investigación en inteligencia artificial (IA) y computación de alto rendimiento (HPC) enfrentan notables dificultades con su infraestructura, lo que frena la innovación y alarga los tiempos de sus proyectos. Los sistemas tradicionales de clústeres locales de HPC sufren de prolongados ciclos de adquisición de GPU, limitaciones de escalabilidad rígidas y exigentes requisitos de mantenimiento, obstaculizando a los investigadores cuando trabajan en tareas de IA como procesamiento de lenguaje natural, visión por computadora y la formación de modelos complejos.

Amazon SageMaker HyperPod se presenta como una solución que simplifica la construcción de modelos de IA, ofreciendo escalabilidad rápida para tareas de desarrollo de modelos, donde se incluye el entrenamiento, optimización e inferencia, en clústeres que pueden contar con centenares o miles de aceleradores de IA, como las GPU NVIDIA H100 o A100.

Recientemente, una universidad puso en práctica SageMaker HyperPod para acelerar su investigación en IA, utilizando particiones dinámicas de SLURM, gestión de recursos de GPU, control de costos computacionales y balanceo de carga de nodos de acceso, todo dentro del entorno de SageMaker HyperPod. Este enfoque optimiza la labor de los investigadores al liberarles de las complicaciones de infraestructuras tradicionales.

La arquitectura de SageMaker HyperPod está diseñada para apoyar operaciones de aprendizaje automático a gran escala, con la infraestructura completamente gestionada por AWS, eliminando sobrecargas operativas y garantizando niveles elevados de seguridad y rendimiento. Los usuarios pueden conectarse a SageMaker HyperPod mediante diversas opciones seguras que mejoran la interacción con el clúster.

La infraestructura de almacenamiento cuenta con Amazon FSx para Lustre, que proporciona sistemas de archivos de alto rendimiento, y Amazon S3, dedicado al almacenamiento seguro y al acceso rápido de datos para el entrenamiento de modelos.

La implementación se desarrolló en múltiples etapas, comenzando por la configuración de AWS y la infraestructura necesaria, seguido de la personalización del clúster SLURM adaptado a las necesidades de investigación del departamento. La habilitación de la configuración de recursos genéricos (GRES) permitió un uso más eficiente, al permitir que varios usuarios accedieran a las GPUs sin conflictos.

Para controlar el uso y los costos, cada recurso del SageMaker HyperPod fue etiquetado con un identificador único, permitiendo el seguimiento mensual del gasto mediante AWS Budgets y AWS Cost Explorer, asegurando el uso eficiente y predecible de los recursos. Además, se desarrolló un sistema de balanceo de carga para optimizar el acceso a los recursos por parte de varios usuarios simultáneamente.

Finalmente, se integró un sistema de Active Directory para facilitar el acceso seguro de los investigadores, garantizando un control centralizado sobre las identidades y privilegios de usuario.

Con estos avances, el uso de SageMaker HyperPod promete transformar la computación en investigación, permitiendo a las instituciones académicas acelerar la innovación en IA y centrarse en sus objetivos científicos, sin enfrentarse a las complejidades de las infraestructuras convencionales.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Lo último

×