Las organizaciones que desarrollan modelos de aprendizaje automático personalizados enfrentan desafíos específicos que no siempre pueden resolver con plataformas estándar. En particular, sectores como el de atención médica y financiero requieren soluciones que aseguren la privacidad de los datos y permitan configuraciones de hardware específicas. Estos requerimientos han impulsado a las empresas a crear entornos de entrenamiento a medida, permitiéndoles un control total sobre hardware, software y seguridad.
Sin embargo, esta personalización conlleva desafíos significativos asociados con la gestión del ciclo de vida del ML. Las empresas frecuentemente desarrollan herramientas personalizadas o recurren a soluciones de código abierto, lo que aumenta los costos operativos y demanda recursos valiosos.
AWS aborda estos retos con soluciones como los «Deep Learning Containers» (DLC) y «MLflow gestionado» a través de Amazon SageMaker AI. Los DLC son contenedores Docker preconfigurados que soportan marcos como TensorFlow y PyTorch, integrando controladores NVIDIA CUDA para optimización de GPU. Estos contenedores están diseñados para rendimiento superior en AWS, se actualizan regularmente y son fácilmente integrables con servicios de AWS.
El MLflow gestionado por SageMaker facilita la gestión del ciclo de vida del ML, permitiendo un registro automático de experimentos y una comparación mejorada de modelos. Al ser parte de un servicio completamente gestionado, reduce la carga operativa de mantener infraestructura de seguimiento.
La unión de DLC y MLflow gestionado no solo asegura controles de infraestructura robustos, sino que también habilita una gobernanza sólida sobre el ML. Esta solución permite a los equipos adaptarse a sus necesidades especializadas mientras disminuye recursos y tiempo en la gestión del ciclo de vida del ML.
Para implementar esta solución, se propone desarrollar un modelo de red neuronal en TensorFlow para predecir la edad de abalones, utilizando seguimiento con MLflow. Se extrae un contenedor de entrenamiento optimizado de TensorFlow del repositorio de ECR de AWS y se configura una instancia EC2 con acceso al servidor MLflow. El entrenamiento se ejecuta en DLC, se almacenan los artefactos en Amazon S3 y se registran resultados en MLflow. Esto permite un acceso fácil a los resultados a través de la interfaz de usuario de MLflow, facilitando la comparación y análisis de modelos.
El modelo final se registra automáticamente en el «Modelo Registry de Amazon SageMaker», ofreciendo un seguimiento completo desde el experimento hasta el modelo desplegado. Esta metodología no solo brinda visibilidad y cumplimiento a lo largo del ciclo de vida, sino que optimiza la gestión de modelos permitiendo una gobernanza efectiva y la flexibilidad necesaria para la innovación.