Amazon SageMaker HyperPod ha introducido una innovadora experiencia para la creación de clústeres, que simplifica significativamente los procesos de entrenamiento e inferencia distribuidos. Esta nueva herramienta permite configurar clústeres con un solo clic, evitando errores de configuración comunes y facilitando el uso de tecnologías complejas sin necesidad de intervención manual.

El sistema se apoya en Slurm o Amazon Elastic Kubernetes Service (EKS) para la orquestación, y utiliza Amazon Virtual Private Cloud (VPC) para establecer una red segura, además de ofrecer almacenamiento de alto rendimiento. Gracias a SageMaker HyperPod, los usuarios pueden escalar tareas como el entrenamiento de inteligencia artificial generativa o la afinación de modelos a un nivel sin precedentes, utilizando clústeres que contienen cientos o incluso miles de aceleradores de IA.

Una de las características más atractivas de esta actualización es su capacidad para monitorizar y resolver automáticamente problemas de hardware, garantizando así la continuidad y recuperación de las cargas de trabajo. Antes, los clientes tenían que configurar manualmente varios recursos de AWS, lo que implicaba riesgos potenciales de fallo. Ahora, la creación de estos recursos es automática y se completa en un solo paso, con valores predeterminados recomendados.

La consola de Amazon SageMaker AI presenta dos nuevas opciones de despliegue: una configuración rápida con valores predeterminados y una configuración personalizada para un control más detallado. Ambas opciones incluyen la creación de un nuevo VPC y la última versión de Kubernetes, así como el almacenamiento de scripts en un nuevo bucket de S3. La configuración personalizada también permite utilizar VPC y grupos de seguridad existentes y la instalación de operadores específicos.

Además, los usuarios pueden añadir nuevos grupos de instancias en variados planes de capacidad, desde bajo demanda hasta opciones más flexibles. SageMaker HyperPod proporciona herramientas avanzadas de verificación de hardware y capacidad para personalizar scripts de ciclo de vida, convirtiéndose en una herramienta potente para el entrenamiento de modelos a gran escala.

Con esta actualización, Amazon pretende simplificar la infraestructura necesaria para aplicaciones de inteligencia artificial y machine learning, promoviendo una adopción más amplia y personalizada de estas tecnologías en el ámbito empresarial.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Lo último

×