Las organizaciones están adoptando cada vez más modelos de base para sus procesos de inteligencia artificial y aprendizaje automático, lo que ha impulsado la necesidad de gestionar eficientemente la inferencia a gran escala. Amazon Bedrock presenta dos métodos principales: la inferencia en tiempo real y la inferencia por lotes, ideal para grandes volúmenes de datos donde no se requieren resultados inmediatos.
La inferencia por lotes en Amazon Bedrock se destaca por su rentabilidad, ofreciendo un 50% de descuento en comparación con el procesamiento bajo demanda. Esta opción es ideal para operaciones de alto volumen sin necesidad de resultados instantáneos, sin embargo, su implementación presenta desafíos como la gestión del formato de entrada, la orquestación de ejecuciones concurrentes y el manejo del posprocesamiento.
Recientemente, se presentó una solución que facilita el flujo de trabajo de la inferencia por lotes. Este enfoque proporciona una estructura flexible y escalable para gestionar las necesidades de inferencia de los modelos de base, aplicando procesos a gran escala como la generación de embeddings para millones de documentos.
El sistema divide el trabajo en preprocesamiento, ejecución de inferencia en paralelo y posprocesamiento. AWS Step Functions gestiona la preparación de conjuntos de datos, ejecución de trabajos y posprocesamiento de resultados. Un ejemplo es el análisis de 2.2 millones de filas del conjunto de datos SimpleCoT, destinado a entrenar el razonamiento en modelos de lenguaje.
La orquestación por lotes utiliza componentes escalables y sin servidor, almacenando los inputs como archivos JSONL en un bucket de Amazon S3. AWS Step Functions coordina trabajos prolongados mientras Amazon DynamoDB registra el estado de cada tarea. Para la generación de embeddings no se necesita un identificador de prompt, pero es esencial que el archivo de entrada contenga las columnas correctas.
Esta implementación permite a las empresas explorar arquitecturas sin servidor para el procesamiento por lotes a gran escala, lo que contribuye a la generación eficiente de datos sintéticos y etiquetas. La solución está disponible en un repositorio de GitHub para que los desarrolladores la adapten según sus necesidades.