Operar un servidor de seguimiento de MLflow autogestionado puede ser un desafío debido a la carga administrativa que implica, lo que incluye el mantenimiento del servidor y la escalabilidad de los recursos. A medida que los equipos de aprendizaje automático amplían sus experimentos, gestionar los recursos de manera eficiente durante picos de demanda y momentos de inactividad se convierte en una tarea compleja. Las organizaciones que ejecutan MLflow en Amazon EC2 o en servidores locales pueden ahora optimizar costos y recursos de ingeniería utilizando Amazon SageMaker AI con MLflow sin servidor.
Una nueva guía publicada ofrece un camino detallado para migrar un servidor de seguimiento MLflow autogestionado a una solución sin servidor en SageMaker AI. Esta aplicación ajusta automáticamente los recursos según la demanda y elimina las tareas de gestión de servidores y almacenamiento sin coste adicional. La guía incluye instrucciones sobre cómo utilizar la herramienta MLflow Export Import para transferir experimentos, ejecuciones, modelos y otros recursos, además de indicaciones para validar el éxito de la migración.
Aunque el objetivo principal es la migración de servidores de seguimiento autogestionados a SageMaker, la herramienta MLflow Export Import también es útil para migrar servidores de seguimiento administrados en SageMaker a la capacidad sin servidor de MLflow. Asimismo, facilita el proceso de actualizaciones de versión y establece rutinas de respaldo para recuperación ante desastres.
El proceso de migración se divide en tres fases: exportación de artefactos MLflow a un almacenamiento intermedio, configuración de una aplicación MLflow y la importación de artefactos. Este proceso puede ejecutarse desde una instancia de EC2, un ordenador personal o un cuaderno de SageMaker, siempre que el entorno mantenga conectividad con los servidores de origen y destino.
Antes de la migración, es crucial verificar la compatibilidad de la versión de MLflow para asegurar que se utilizan versiones compatibles en ambos entornos. Se recomienda utilizar la última versión de MLflow disponible en Amazon SageMaker para facilitar el proceso.
Una vez creada la nueva aplicación MLflow en SageMaker, se debe instalar MLflow y el plugin de SageMaker en el entorno de ejecución para garantizar la correcta conexión con la nueva aplicación. Después, la instalación de la herramienta MLflow Export Import resulta clave para proceder con la exportación e importación de los recursos necesarios al nuevo entorno.
Es fundamental validar que todos los recursos de MLflow se han transferido correctamente, asegurando que los experimentos y ejecuciones estén completos y que los artefactos de modelo sean accesibles. En proyectos de gran envergadura, se recomienda dividir el proceso en lotes más pequeños para facilitar su gestión.
Finalmente, es importante recordar que un servidor de seguimiento administrado por SageMaker generará costos hasta que sea eliminado o detenido. Para evitar gastos innecesarios, se sugiere detener o eliminar los servidores de seguimiento cuando no estén en uso.
Migrar a una aplicación MLflow sin servidor en Amazon SageMaker AI reduce significativamente la sobrecarga operativa de mantener la infraestructura de MLflow, ofreciendo una integración fluida con los servicios de AI/ML de SageMaker. Se invita a quienes deseen realizar su propia migración a seguir la guía paso a paso y consultar la documentación referenciada para obtener detalles adicionales.