La creciente complejidad y escala de los flujos de trabajo de inteligencia artificial y aprendizaje automático (AI/ML) están generando desafíos significativos para los proyectos que buscan pasar de la fase piloto a la producción. Muchos de estos esfuerzos no fallan por la calidad de los modelos, sino por infraestructuras y procesos fragmentados que dificultan su gestión. Esta situación provoca que el código de los proyectos se vuelva más complicado al intentar adaptarse a nuevos requisitos, complicando el traslado de modelos desarrollados localmente a entornos de producción y la reproducción de resultados.
Para enfrentar estos problemas, se ha lanzado el Flyte Python SDK, una herramienta que facilita la orquestación y escalado de flujos de trabajo de AI/ML. La nueva versión del sistema de Union.ai permite implementar Flyte en Amazon Elastic Kubernetes Service (Amazon EKS), integrándose con otros servicios de AWS como Amazon S3, Amazon Aurora, AWS Identity and Access Management (IAM) y Amazon CloudWatch. Un buen ejemplo de esto es la posibilidad de utilizar el nuevo servicio de Amazon S3 Vectors dentro de un flujo de trabajo de AI.
La ejecución de flujos de trabajo de AI/ML en Kubernetes presenta retos de orquestación: la complejidad de la infraestructura, la transición entre experimentación y producción, la reproducibilidad, la gestión de costos y la fiabilidad son solo algunos. Union.ai 2.0 ofrece un enfoque especializado para resolver estos problemas, facilitando el desarrollo y la implementación de modelos de AI en entornos complejos.
Union.ai 2.0 transforma la manera en que se orquestan las cargas de trabajo en Amazon EKS. Permite escalar flujos de trabajo en Python desde laptops hasta clústeres, con una ejecución dinámica y un enfoque en la reproducibilidad. Entre sus características destaca la lógica de orquestación escrita en Python, que reduce el código necesario en un 66% frente a otros orquestadores, además de permitir decisiones en tiempo real y recuperación rápida ante fallos sin intervención manual.
La solución de Union.ai 2.0, con su arquitectura híbrida, combina la simplicidad gestionada con el control total de datos, eliminando la complejidad de manejar la infraestructura de Kubernetes. Esto permite a los equipos centrarse en construir modelos y aplicaciones de AI. Además, integra componentes críticos como el plano de control y el plano de datos para garantizar una gestión eficiente y segura de los flujos desde la ejecución hasta el almacenamiento y la supervisión.
Un ejemplo destacado de esta tecnología es su implementación por parte de Woven by Toyota, que tras migrar a Union.ai experimentó mejoras significativas en los ciclos de iteración de ML, ahorros en costos y un aumento en la escala de procesamiento de datos. La integración de Amazon S3 Vectors simplifica la gestión de datos vectoriales, permitiendo a las organizaciones aprovechar modelos de AI avanzados sin las complicaciones de gestionar infraestructuras dispares.
En resumen, herramientas como Union.ai y Flyte establecen las bases para una orquestación confiable y escalable de AI en producción, permitiendo a las empresas concentrarse en el desarrollo de sistemas autónomos y modelos de aprendizaje automático a gran escala.