Amazon Web Services (AWS) ha lanzado una nueva funcionalidad para mejorar la asignación de recursos en Amazon SageMaker HyperPod a través de la gobernanza de tareas. Esta herramienta proporciona a los usuarios la capacidad de distribuir de manera equitativa los recursos de computación y memoria dentro de los clústeres del servicio Amazon Elastic Kubernetes Service (EKS). Este avance busca optimizar la utilización y garantizar un uso equitativo de los recursos entre diferentes equipos y proyectos.
La nueva funcionalidad permite a los administradores establecer límites claros sobre los recursos que cada grupo puede utilizar, evitando así el monopolio por parte de un solo equipo. Esto es crucial en situaciones donde el control de costos es vital, permitiendo que los recursos se distribuyan de manera justa entre varias áreas.
Gracias a la gobernanza de tareas de HyperPod, los administradores pueden asignar recursos específicos como GPU, vCPU y memoria de vCPU a diferentes equipos según sus necesidades. Esto incluye la opción de asignar cuotas de GPU por tipo de instancia y familia, así como asignaciones de CPU y memoria para un control detallado. Además, se pueden definir prioridades que determinan cómo se reparten los recursos no utilizados.
Daniel Xu, Director de Producto en Snorkel AI, subraya la relevancia de esta innovación para maximizar la utilización de clústeres, especialmente en proyectos complejos de inteligencia artificial. Xu destaca que el control de acceso a recursos avanzados, como las GPUs de última generación, es crucial para aumentar la eficiencia en la administración de los clústeres.
El proceso de implementación sigue un flujo conocido para los administradores de AWS, quienes pueden utilizar la consola de gestión para establecer políticas que prioricen cargas de trabajo críticas y distribuyan recursos inactivos. Esta capacidad es especialmente valiosa para equipos que realizan experimentos con modelos de inteligencia artificial, donde la gestión eficiente de los recursos es fundamental.
Con este avance, Amazon SageMaker HyperPod admite ahora clústeres que incluyen instancias basadas en CPU, GPU y AWS Neuron. Esto permite una especificación precisa de los recursos necesarios, mejorando así la capacidad de las organizaciones para manejar sus necesidades de computación. AWS continúa liderando en la optimización de infraestructuras para inteligencia artificial y aprendizaje automático, asegurando que los equipos tengan acceso a los recursos necesarios sin incurrir en desperdicios. vía: AWS machine learning blog.