El despliegue de soluciones de inteligencia artificial generativa a nivel global enfrenta desafíos significativos, particularmente en la evaluación de la calidad de las respuestas en múltiples idiomas. Este desafío es común entre organizaciones que buscan mantener un rendimiento coherente, ya que las evaluaciones humanas requieren recursos considerables, especialmente en diversas lenguas. Muchas empresas luchan por escalar sus procesos de evaluación sin comprometer la calidad o exceder sus presupuestos.
En respuesta a estos desafíos, Amazon Bedrock Evaluations emerge como una solución eficiente. Su capacidad de «LLM-as-a-judge» permite evaluar las salidas de IA de manera consistente a través de diferentes idiomas, reduciendo significativamente el tiempo y los recursos necesarios para realizar evaluaciones multilingües, al tiempo que mantiene altos estándares de calidad.
La metodología de evaluación de Amazon Bedrock ofrece resultados fiables sin necesidad de implementar infraestructuras localizadas o crear prompts personalizados. A través de pruebas y análisis exhaustivos, se han desarrollado estrategias prácticas para reducir el costo y la complejidad de las evaluaciones multilingües.
El proceso de evaluación se hace más accesible mediante Amazon Bedrock Evaluations, que combina métodos automáticos y humanos para valorar la calidad de los modelos. Las evaluaciones automáticas permiten utilizar tanto métricas integradas como personalizadas, facilitando la evaluación de modelos tanto internos como externos, mientras que las evaluaciones humanas proporcionan un estándar de comparación esencial para casos que requieren el juicio experto.
En la preparación de los conjuntos de datos para la evaluación, se utilizaron divisiones en indonesio de un popular conjunto de datos de evaluación conversacional. Las conversaciones se transformaron en interacciones de un solo turno, lo que permitió evaluar cada turno de manera independiente y coherente y resultó en una serie completa de registros evaluativos. Estos registros fueron analizados utilizando un modelo más robusto y otro más débil para generar respuestas.
Se realizó una comparación entre las puntuaciones otorgadas por evaluadores humanos y las proporcionadas por los modelos de lenguaje en las evaluaciones humanas. La tendencia mostró que, en los modelos más fuertes, las calificaciones de los jueces LLM coincidieron en gran medida con las humanas, aunque en modelos más débiles, las puntuaciones dadas por los LLMs fueron notablemente más altas.
Este análisis también permitió explorar la correlación entre los puntajes obtenidos. Los resultados mostraron un fuerte alineamiento entre los LLMs y las evaluaciones humanas en modelos más débiles, mientras que el alineamiento fue moderado en modelos más fuertes.
La evaluación cruzada entre diferentes idiomas confirmó que los resultados permanecieron consistentes, mostrando que aunque la traducción de prompts es útil, no es esencial para obtener evaluaciones coherentes. Los datos sugieren que el uso de prompts en inglés puede ser efectivo incluso para resultados generados en otros idiomas, lo que simplifica la expansión y el escalamiento de evaluaciones de IA a nivel global.
En conclusión, los métodos de «LLM-as-a-judge» son prácticos y ofrecen una evaluación más rápida y económica, siendo especialmente adecuados para implementaciones a gran escala. La importancia de las evaluaciones humanas sigue siendo crucial para establecer un estándar y asegurar que las evaluaciones automatizadas se alineen efectivamente con las expectativas de los usuarios.