Otras noticias

Optimización de Modelos OpenAI GPT-OSS en Amazon SageMaker AI con Bibliotecas de Hugging Face

Publicado el 11/08/2025
Por Maria José M.R.

El 5 de agosto de 2025, OpenAI marcó un nuevo hito en el campo de la inteligencia artificial al lanzar sus modelos GPT-OSS, los cuales ya están disponibles en AWS a través de Amazon SageMaker AI y Amazon Bedrock. Estos nuevos modelos, denominados gpt-oss-20b y gpt-oss-120b, destacan por sus avanzadas arquitecturas de Transformer y han sido entrenados exclusivamente con texto. Una de las características más innovadoras de estos modelos es la implementación de la técnica Mixture-of-Experts (MoE), que optimiza significativamente los recursos computacionales al activar solo una parte de los parámetros por token.

Los GPT-OSS son particularmente eficaces en tareas de programación, análisis científico y razonamiento matemático gracias a su notable capacidad para manejar contextos de hasta 128,000 tokens. Además, ofrecen niveles de razonamiento ajustables y estructurados, brindando soluciones versátiles y adaptativas.

La documentación de OpenAI revela que estos modelos han pasado por entrenamientos exhaustivos centrados en la seguridad, así como evaluaciones de afinamiento adversarial para asegurar su robustez frente a potenciales usos indebidos. Su flexibilidad de implementación resulta ser uno de los aspectos más destacables, permitiendo utilizaciones directas mediante Amazon SageMaker JumpStart o a través de las API de Amazon Bedrock.

Otra ventaja significativa es la capacidad de afinamiento de los modelos, es decir, la posibilidad de ajustar los pesos de un modelo preentrenado mediante un conjunto de datos específico. Esto permite personalizar el GPT-OSS para diversos dominios sin necesidad de reiniciar el proceso de entrenamiento, consiguiendo así un rendimiento más preciso y adaptable.

OpenAI ofrece un entorno gestionado para el afinamiento de modelos, utilizando herramientas de código abierto que facilitan la distribución del entrenamiento en múltiples GPUs. Además, la técnica de optimización DeepSpeed ZeRO-3 reduce el uso de memoria, lo que hace posible entrenar modelos con miles de millones de parámetros de forma más eficiente.

En el ámbito empresarial, la versatilidad del GPT-OSS es ideal para tareas que requieren razonamiento multilingüe. Esta capacidad es especialmente valiosa para empresas que trabajan en diversos idiomas y contextos, haciendo de estos modelos una opción esencial para innovar y automatizar procesos. Los modelos se pueden implementar y ajustar rápidamente, convirtiéndolos en activos valiosos para la innovación y la automatización dentro de las organizaciones.

En resumen, con la introducción de los modelos GPT-OSS, OpenAI ofrece soluciones avanzadas que pueden integrarse fácilmente en flujos empresariales, potenciando la capacidad de razonamiento y análisis en múltiples idiomas y elevando el potencial de la inteligencia artificial a niveles sin precedentes.