Otras noticias

Escalando la Anotación de Datos con Modelos de Visión-Lenguaje para Potenciar Sistemas de IA Física

Publicado el 24/02/2026
Por Maria José M.R.

Los escasos recursos laborales están limitando el crecimiento en sectores como la manufactura, la logística, la construcción y la agricultura, siendo la construcción el área más afectada. En Estados Unidos, cerca de 500,000 puestos de trabajo permanecen vacantes y el 40% de la mano de obra actual se aproxima a la jubilación en la próxima década. Estas limitaciones en la fuerza laboral han resultado en retrasos en proyectos, un aumento en los costos y la postergación de planes de desarrollo. Para mitigar estas dificultades, las organizaciones están desarrollando sistemas autónomos que pueden realizar tareas que llenan vacíos de capacidad, amplían las capacidades operativas y ofrecen la ventaja adicional de productividad ininterrumpida.

La creación de sistemas autónomos requiere de grandes conjuntos de datos anotados para entrenar modelos de inteligencia artificial, y el costo elevado de la preparación de datos se ha convertido en un obstáculo. La etapa crítica de etiquetado de datos de video es esencial para asegurar que los datos sean útiles para el entrenamiento de modelos. Sin embargo, este paso puede ralentizar la implementación de modelos, atrasando así la entrega de productos y servicios impulsados por IA a los clientes. Para las empresas de construcción que manejan millones de horas de video, la anotación manual de datos se vuelve poco práctica. Los modelos de lenguaje-visual (VLMs) ayudan a abordar esto al interpretar imágenes y videos, ofreciendo una alternativa rentable.

Un ejemplo es Bedrock Robotics, que se ha asociado con el AWS Generative AI Innovation Center para aplicar modelos de lenguaje-visual que analizan el metraje de video de construcción, extraen detalles operativos y generan conjuntos de datos de entrenamiento etiquetados a gran escala. Desde 2024, Bedrock Robotics ha desarrollado sistemas autónomos para el equipo de construcción. Su producto, Bedrock Operator, combina hardware con modelos de inteligencia artificial para operar maquinaria con mínima intervención humana.

Para entrenar estos modelos, se necesita una gran cantidad de metraje de video que capture el equipo, las tareas y el entorno. Los VLMs ofrecen una solución al analizar estos datos y generar descripciones textuales cruciales para la anotación. Bedrock Robotics utilizó esta tecnología para agilizar la preparación de datos, mejorando la identificación de herramientas de 34% a 70%, convirtiendo un proceso manual en un flujo de trabajo automatizado y escalable.

Esta metodología presenta un marco replicable para organizaciones con desafíos similares, mostrando cómo una inversión en modelos de base puede resultar en resultados operativos y una ventaja competitiva. Los modelos de base, entrenados con grandes volúmenes de datos, utilizan técnicas de aprendizaje auto-supervisado para tareas diversas, conectando modalidades visuales y textuales.

En el futuro, se espera que la automatización ayude a abordar la escasez de mano de obra, permitiendo a las empresas acelerar la implementación de sistemas autónomos, reducir costos operativos y explorar nuevas áreas de crecimiento en industrias afectadas por la falta de personal. A medida que las organizaciones optimizan su preparación de datos, se abre una vía hacia la transformación de desafíos laborales en oportunidades de innovación y expansión.