Clockwork.io ha anunciado el lanzamiento de TorchPass Workload Fault Tolerance, una innovadora solución que busca revolucionar la gestión de fallos en la infraestructura de inteligencia artificial (IA). Esta tecnología responde a un problema costoso en el entrenamiento de IA a gran escala: los reinicios catastróficos provocados por fallos de hardware.
Con el crecimiento de las inversiones en chips de IA, los altos costos de la ejecución de trabajos distribuidos siguen siendo una preocupación debido a la posibilidad constante de fallos. Según Suresh Vasudevan, CEO de Clockwork.io, esto ha sido tradicionalmente aceptado en el ecosistema. La introducción de TorchPass pretende cambiar esta situación permitiendo que las cargas de trabajo de IA continúen funcionando, incluso ante problemas como interrupciones de GPU, fallos de red y otros, sin necesidad de reiniciar desde puntos de verificación.
TorchPass se integra como una característica principal de la plataforma FleetIQ de Clockwork.io y emplea la migración en vivo de GPU para asegurar que el entrenamiento de IA no se vea interrumpido por problemas en la infraestructura. Al eliminar las interrupciones y mejorar la utilización de los clústeres de GPU, se prevé ahorrar significativamente. En un despliegue típico de 2.048 GPU, se estima que se pueden recuperar más de 6 millones de dólares anuales en capacidad de cómputo.
Dylan Patel, CEO de SemiAnalysis, resalta la importancia de TorchPass, indicando que los proyectos de grandes volúmenes frecuentemente sufren interrupciones por fallos. La solución de Clockwork.io permite una conmutación por error que mantiene la operación del sistema, mejorando la eficiencia y economía del uso de GPU.
Las investigaciones muestran que el entrenamiento distribuido de IA es propenso a fallos conforme los clústeres crecen, con un tiempo medio hasta el fallo de solo 7,9 horas en un clúster de 1.024 GPU. Cada fallo obliga a retroceder al último punto guardado, perdiendo tiempo y recursos.
En este contexto, TorchPass se convierte en esencial para empresas que necesitan fiabilidad en sus cargas de trabajo de IA. José Power, CTO de Nscale, subraya que gestionar fallos sin detener el entrenamiento es vital para ofrecer una infraestructura de cómputo confiable y rentable.
Con este lanzamiento, Clockwork.io busca no solo mejorar la eficiencia operativa, sino también habilitar la próxima generación de infraestructura de IA. Al transformar la fiabilidad en una capacidad definida por software, TorchPass permite desplegar sistemas más avanzados y densos sin temor a que pequeños fallos causen grandes interrupciones.
El equipo de Clockwork.io estará en el evento NVIDIA GTC 2026 del 16 al 19 de marzo, en el stand n.º 205 para ofrecer más detalles.