En 2024, el Ministerio de Economía, Comercio e Industria de Japón puso en marcha el programa Generative AI Accelerator Challenge (GENIAC) con el objetivo de impulsar la inteligencia artificial generativa. Este ambicioso proyecto proporciona a las empresas no solo financiación y asesoramiento, sino también acceso a recursos computacionales de gran envergadura para el desarrollo de modelos fundamentales. Amazon Web Services (AWS) fue seleccionado como proveedor de nube para la segunda fase del programa, brindando su infraestructura y asesoría técnica a 12 organizaciones participantes.
A simple vista, el objetivo parecía claro: dotar a las empresas de un gran número de GPUs y chips Trainium para fomentar la innovación. Sin embargo, el entrenamiento exitoso de modelos fundamentales resultó ser un proceso más complejo de lo que inicialmente se anticipó. AWS descubrió que, aunque disponer de más de 1,000 aceleradores era crucial, el verdadero reto residía en crear un sistema robusto y solventar los desafíos del entrenamiento distribuido.
Durante esta fase, 12 clientes lograron implementar con éxito 127 instancias de Amazon EC2 P5 (servidores NVIDIA H100 TensorCore GPU) y 24 de Amazon EC2 Trn1 (AWS Trainium) en un solo día. En los meses siguientes, se llevaron a cabo múltiples proyectos de gran escala, incluyendo el Stockmark-2-100B-Instruct-beta y Llama 3.1 Shisa V2 405B.
Una lección vital de esta experiencia fue la importancia de contar con equipos multidisciplinarios para llevar a cabo iniciativas de gran envergadura en aprendizaje automático. AWS reunió un equipo virtual que integró personal de cuentas, arquitectos de soluciones y equipos de servicio. Este enfoque de colaboración cercana facilitó un intercambio efectivo de información y ofreció soporte continuo a los clientes.
Además, la comunicación estructurada se mostró esencial. Se creó un canal interno en Slack para gestionar el programa, promoviendo un entorno colaborativo y de resolución rápida de problemas. Asimismo, AWS mantuvo un registro detallado de seguimiento para cada cliente, clarificando requisitos técnicos y configuraciones. Reuniones semanales permitieron compartir aprendizajes y mejorar el modelo de participación continuamente.
Otra estrategia crucial fue el desarrollo de arquitecturas de referencia. En lugar de que cada equipo creara su propio clúster, AWS diseñó plantillas y automatizaciones previas validadas para AWS ParallelCluster y SageMaker HyperPod. Estas arquitecturas abarcaban todo el stack técnico, facilitando despliegues con mínima fricción.
GENIAC ha revelado que entrenar modelos fundamentales a gran escala es, en esencia, un desafío organizativo. Mediante un enfoque estructurado y colaborativo, los participantes pudieron ejecutar grandes cargas de trabajo exitosamente en la nube. Al cierre de esta fase, se organizó un evento técnico en Tokio para preparar a los desarrolladores para la siguiente etapa del programa, marcando un avance significativo en el ámbito de la inteligencia artificial generativa. AWS continúa comprometido con el desarrollo global de estas tecnologías.