Amazon ha introducido innovadoras funciones para evaluar modelos en Amazon SageMaker AI, orientadas a mejorar la capacidad de los usuarios para evaluar modelos de aprendizaje automático de manera más efectiva. La actualización destaca por la inclusión de soporte para métricas personalizadas, pruebas de preferencia con LLM, captura de probabilidades logarítmicas, análisis de metadatos y escalado en múltiples nodos para grandes evaluaciones.
Una de las características más relevantes es la posibilidad de configuración de métricas personalizadas. Esto permite a los desarrolladores definir criterios específicos de evaluación que se alineen con sus necesidades precisas. Por ejemplo, se pueden implementar métricas que midan la empatía en un modelo de atención al cliente o la exactitud médica en un asistente doctor. Esta personalización ofrece la flexibilidad necesaria para adaptar las evaluaciones a contextos específicos.
La función «LLM-as-a-Judge» introduce un método para realizar evaluaciones subjetivas. A través de comparaciones y reportes detallados, se identifica qué respuesta es preferida y se ofrecen las razones detrás de cada juicio. Esta herramienta es especialmente útil en tareas complejas donde las explicaciones y el razonamiento son tan críticos como la clasificación misma.
La captura de probabilidades logarítmicas es otra novedad que aporta datos sobre la confianza del modelo en cada opción presentada. Este detalle es crucial para estudios de calibración, permitiendo tomar decisiones fundamentadas sobre la gestión de respuestas. Los equipos pueden relacionar estas probabilidades con el desempeño real, estableciendo umbrales de calidad y detectando potenciales problemas antes de que afecten los sistemas en producción.
Las mejoras en el análisis de metadatos hacen posible la preservación de campos adicionales para examinar resultados en función de segmentos de clientes, dominios, niveles de dificultad y prioridades. Esto elimina la necesidad de procesamiento adicional, permitiendo un análisis más profundo y detallado.
Por último, para quienes requieren evaluar grandes cantidades de datos, la nueva capacidad de ejecución en múltiples nodos facilita la distribución de tareas, posibilitando el manejo desde miles hasta millones de ejemplos. Esto asegura una agregación estable y resultados consistentes.
A través de SageMaker, los equipos pueden definir evaluaciones utilizando archivos JSONL alojados en Amazon S3 y ejecutarlas como trabajos de entrenamiento. Esto permite un control exhaustivo de los procesos de pre y post-procesamiento, presentando resultados que pueden integrarse fácilmente en herramientas analíticas como Amazon Athena y AWS Glue. Con estas mejoras, las empresas cuentan con un camino claro para adoptar tecnologías de inteligencia artificial generativa de manera más eficaz.