Otras noticias

Estabilidad operativa en sistemas de aprendizaje automático críticos para la misión

Publicado el 08/03/2026
Por Maria José M.R.

Las operaciones de tecnología de la información (TI) en las empresas han alcanzado un punto de notable desarrollo organizativo, con aplicaciones empresariales distribuidas y middleware intensivo en datos que operan bajo estrictas regulaciones en entornos críticos para la misión. No obstante, a pesar de los avances en herramientas de observabilidad y monitoreo, continúan los desafíos en la estabilidad operacional debido principalmente a la incapacidad de transformar la telemetría de alto volumen en salidas operativas confiables sin depender exclusivamente de la falta de datos.

La inteligencia artificial aplicada ha generado lo que los expertos llaman una crisis de explicabilidad. A pesar de que los modelos de máquina detectan anomalías y correlaciones a gran escala, a menudo no pueden explicar por qué se debe ejecutar una operación particular. Esta automatización opaca es inaceptable, especialmente en entornos estructurados, lo que crea un dilema entre la opacidad algorítmica y las limitaciones cognitivas humanas.

Tradicionalmente, los modelos de TI se basaban en la automatización heurística, que funcionaba bien en sistemas predecibles. Sin embargo, en operaciones dinámicas donde los modos de falla son emergentes, esta metodología se vuelve ineficaz. Esto ha llevado a una extensión del tiempo medio de resolución (MTTR) y al agotamiento por alertas, problemas que ahora se consideran sistémicos.

La transformación actual se dirige hacia operaciones autónomas impulsadas por inteligencia artificial. Implementar un modelo de madurez governado es crucial para manejar la autonomía como un producto de ingeniería en lugar de una característica experimental.

Un ejemplo representativo es el de una organización global que, bajo presión de costos y operativa, adoptó la automatización a gran escala. No obstante, con un entorno de trabajo compuesto por aplicaciones de monitoreo fragmentadas y cargas en la nube, se enfrentaron a incidentes críticos que aumentaron los riesgos regulatorios. La inestabilidad operativa y falta de transparencia afectaron sus esfuerzos. La solución fue un modelo de referencia para AIOps que transformó la resolución autónoma, manejando más de 130,000 tickets de TI automáticamente, reduciendo el MTTR en un 79% y bajando los incidentes críticos.

En otro caso, una compañía con infraestructura heredada encaró dificultades debido a la fragmentación del monitoreo. Al transformar gradualmente sus operaciones hacia un modelo maduro en tres etapas, la empresa logró mejoras en disponibilidad y reducción de incidentes.

En conclusión, la transición hacia plataformas autónomas es un reto tanto en ingeniería de sistemas como en gobernanza. Integrar inteligencia de máquina con supervisión humana es esencial para el desarrollo de una AI de grado de producción. La autonomía se logra con un enfoque gradual que fusiona AI con la intervención humana, no solo asegurando estabilidad, sino también fortaleciendo la resiliencia en la era digital.