La inteligencia artificial generativa ha experimentado un crecimiento significativo en su popularidad, convirtiéndose en una herramienta esencial en diversos ámbitos. Entre estas tecnologías, la Generación Aumentada por Recuperación (RAG) destaca por su capacidad para mejorar la precisión y fiabilidad de las respuestas generadas. RAG se utiliza para integrar datos adicionales no considerados durante el entrenamiento de los modelos de lenguaje, mitigando así la emergencia de información falsa o engañosa, conocida como «alucinaciones» en el campo de la IA.
Con la creciente integración de estos sistemas de IA en la vida diaria y en procesos críticos de toma de decisiones, se vuelve crucial detectar y reducir estas alucinaciones. A diferencia de la mayoría de las técnicas actuales que se centran solo en la pregunta y respuesta, el contexto adicional que ofrece RAG abre la puerta a nuevas técnicas capaces de abordar mejor este desafío.
Diversos métodos han sido propuestos para establecer un sistema básico de detección de alucinaciones en aplicaciones RAG. Estos métodos son evaluados por su precisión, capacidad de recuperación y costo. Las técnicas actuales buscan ofrecer soluciones accesibles para ser incorporadas rápidamente en las canalizaciones de RAG, mejorando así la calidad de las respuestas generadas.
Se reconocen tres tipos de alucinaciones y se han planteado varias técnicas para su detección, incluyendo el detector basado en LLM, el detector de similitud semántica y el verificador estocástico BERT. Cada uno de estos métodos muestra distintos niveles de eficacia en términos de rapidez y rendimiento, evaluados con conjuntos de datos como artículos de Wikipedia y datos generados sintéticamente.
En cuanto a requisitos, es necesario contar con una cuenta en AWS que permita el acceso a herramientas como Amazon SageMaker y Amazon S3. Para operar un sistema RAG de forma efectiva, es fundamental almacenar el contexto relevante a la consulta del usuario, la pregunta planteada, y la respuesta generada por el modelo de lenguaje.
El método de detección basado en LLM clasifica la respuesta del sistema RAG según si entra en conflicto con el contexto, mientras que los métodos de similitud semántica y comparación de tokens identifican inconsistencias de diferentes maneras. Se ha comprobado que el verificador estocástico BERT ofrece un rendimiento alto en la recuperación de información, aunque esto puede implicar un costo elevado.
Las comparaciones entre las diversas técnicas sugieren que el método basado en LLM ofrece un buen equilibrio entre precisión y costo. Por ello, se recomienda un enfoque híbrido que combine un detector de similitud de tokens con uno basado en LLM para abordar eficazmente las alucinaciones. Esto subraya la importancia de la adaptabilidad y el análisis continuo en las aplicaciones de inteligencia artificial generativa. En resumen, a medida que las aplicaciones de RAG avanzan, los métodos de detección de alucinaciones desempeñarán un papel crucial en la mejora de la fiabilidad y la confianza en estos sistemas.