En la actualidad, las empresas gestionan miles de documentos diarios que contienen información crítica para sus operaciones, desde facturas hasta contratos. Sin embargo, el desafío de localizar y extraer con precisión campos específicos sigue siendo complejo. Las tecnologías de reconocimiento óptico de caracteres (OCR) identifican texto, pero determinar con exactitud la posición de información específica requiere soluciones más avanzadas.
La evolución de la tecnología demuestra la complejidad de este desafío. En los inicios, herramientas como YOLO revolucionaron la detección de objetos con un enfoque de regresión, permitiendo la detección en tiempo real. RetinaNet introdujo mejoras abordando el desequilibrio de clases, y DETR simplificó el proceso con transformadores. No obstante, estos métodos demandaban grandes volúmenes de datos y arquitecturas complejas.
El desarrollo de modelos de lenguaje grandes multimodales (LLMs) supone un cambio sustancial en el procesamiento de documentos. Estos modelos combinan la visión avanzada con procesamiento de lenguaje natural, lo que ofrece una notable ventaja competitiva. Permiten localizar información sin aprendizaje supervisado, usando interfaces de lenguaje natural y adaptándose fácilmente a diversos documentos.
El uso de modelos disponibles en Amazon Bedrock, como Amazon Nova Pro, ha demostrado alta precisión en la localización de campos en documentos, simplificando su implementación. Esto reduce los errores y la necesidad de intervención manual en los procesos.
La capacidad de localizar información en documentos no solo extrae texto, sino que identifica su posición exacta. Esta funcionalidad es crítica para tareas de verificación automática y manejo de datos sensibles. A diferencia de los sistemas tradicionales, que requieren extensos datos de entrenamiento, los modelos multimodales de Amazon Bedrock permiten soluciones robustas con menor sobrecarga técnica.
El sistema de localización utiliza imágenes de documentos y texto solicitado, procesado con modelos seleccionados en Amazon Bedrock. Se devuelven las ubicaciones de los campos mediante coordenadas absolutas o normalizadas. También se implementan dos estrategias de solicitud: una basada en dimensiones y otra en coordenadas escaladas, ofreciendo mayor flexibilidad.
Un estudio de benchmarking con el dataset FATURA, que incluye 10,000 facturas, ha mostrado que estos modelos pueden localizar y extraer campos con un mínimo esfuerzo de configuración, simplificando los flujos de trabajo tradicionales. Amazon Nova Pro destaca en el procesamiento de documentos empresariales, logrando un promedio de precisión (mAP) de 0.8305.
Este avance abre nuevas posibilidades para optimizar flujos de trabajo y anima a las empresas a adoptar soluciones innovadoras en el manejo de documentos, marcando un hito en la gestión documental empresarial.