En un avance significativo en el ámbito de la inteligencia artificial, el Instituto de Ciencia de Tokio ha completado el desarrollo de Llama 3.3 Swallow, un modelo de lenguaje con 70 mil millones de parámetros. Este proyecto, liderado por Kazuki Fujii, fue realizado utilizando Amazon SageMaker HyperPod, optimizando el rendimiento en el procesamiento del idioma japonés y superando a modelos como GPT-4o-mini.
Llama 3.3 Swallow se basa en la arquitectura de Meta Llama 3.3 e incorpora mejoras específicas para el japonés. Fue desarrollado en colaboración con el Laboratorio Okazaki, el Laboratorio Yokota del Instituto de Ciencia de Tokio y el Instituto Nacional de Ciencia y Tecnología Industrial Avanzada (AIST). Dos variantes del modelo están disponibles en Hugging Face, facilitando el acceso de investigadores y desarrolladores interesados.
El entrenamiento se efectuó mediante preformación continua usando el Swallow Corpus Version 2, un conjunto de datos extraído de contenido educativo en japonés. Para ello, se utilizaron 32 instancias EC2 de Amazon con potentes GPUs durante más de 16 días.
Los resultados han mostrado que Llama 3.3 Swallow supera a diversas alternativas competitivas. Su variante ajustada ha rendido excepcionalmente bien en el Japanese MT-Bench, un estándar para evaluaciones prácticas en el idioma.
El modelo está disponible en Hugging Face bajo las licencias de Meta Llama 3.3 y Gemma, promoviendo la innovación en aplicaciones de IA centradas en el japonés. La infraestructura utilizada permite un entrenamiento rápido y sin interrupciones, gracias a su diseño eficiente y escalable que integra cómputo, red, almacenamiento y monitoreo.
Se implementó un enfoque sistemático para optimizar recursos y un sistema de monitoreo integral para detectar problemas en tiempo real. Estos desarrollos serán liberados como proyectos de código abierto, enriqueciendo la comunidad de investigación en IA.
El equipo planea potenciar aún más las capacidades de Llama 3.3 Swallow en el futuro, explorando nuevas aplicaciones en tecnología y comunicación.