Las bases de datos grafos han revolucionado la forma en que las organizaciones gestionan datos complejos e interconectados. No obstante, lenguajes de consulta especializados como Gremlin pueden representar un desafío significativo para los equipos que buscan obtener información de manera eficiente. A diferencia de las bases de datos relacionales tradicionales con esquemas bien definidos, las bases de datos grafos carecen de un esquema centralizado, lo que requiere una considerable experiencia técnica para formular consultas efectivas.
Para superar este obstáculo, se ha introducido un enfoque innovador que convierte consultas en lenguaje natural a consultas Gremlin mediante el uso de modelos de Amazon Bedrock, como Amazon Nova Pro. Este método busca facilitar el acceso a las bases de datos grafos a analistas de negocio, científicos de datos y otros usuarios no técnicos sin mayores dificultades.
El proceso de generación de consultas a partir de lenguaje natural se organiza en tres pasos fundamentales. El primero consiste en comprender y extraer el conocimiento del gráfico, lo que incluye etiquetas de vértices, propiedades y conexiones. Este paso es complementado con el conocimiento del dominio, que proporciona contexto adicional adaptado a la aplicación específica, a través de descripciones generadas por modelos de lenguaje.
El segundo paso se centra en estructurar el gráfico, creando un esquema comparable al procesamiento de texto a SQL, lo que mejora la comprensión del modelo sobre las estructuras gráficas. En este contexto, cada consulta en lenguaje natural pasa por un proceso de reconocimiento de entidades, enriquecimiento de contexto y planificación de consultas.
Finalmente, el tercer paso implica la generación y ejecución de consultas Gremlin. Un modelo de lenguaje genera una consulta inicial que se ejecuta en un motor Gremlin y, en caso de error, se aplican mecanismos analíticos para afinar la consulta. Este proceso iterativo asegura que las consultas generadas se alineen con la estructura y restricciones de la base de datos, mejorando su precisión y usabilidad.
Además, se ha implementado un sistema de evaluación basado en modelos de lenguaje para analizar la calidad de las consultas generadas y sus resultados. Mediante pruebas con 120 preguntas, se ha confirmado que este framework puede distinguir eficazmente las consultas correctas de las incorrectas, logrando una precisión del 74.17%.
Los resultados revelaron que Amazon Nova Pro aventaja a modelos de referencia en términos de latencia y costos, generando consultas más rápidamente y con menor costo por token. De cara al futuro, se están desarrollando mejoras para optimizar la evaluación automática de resultados y gestionar de manera más efectiva consultas anidadas. Estas innovaciones prometen aumentar la fiabilidad y consistencia de las salidas del framework, facilitando a las empresas el aprovechamiento de las bases de datos grafos para múltiples aplicaciones. vía: AWS machine learning blog.