Un nuevo enfoque en la creación de guiones gráficos animados ha surgido, utilizando inteligencia artificial para garantizar una notable consistencia visual entre personajes. Esta innovadora técnica, que combina la ingeniería de imagen con el desarrollo de personajes, permite a los creadores afinar modelos de AI, específicamente el modelo Amazon Nova Canvas, para gestionar de manera precisa las apariciones y expresiones de los personajes a lo largo de diferentes escenas.
FuzzyPixel, una división de Amazon Web Services (AWS), está liderando un proyecto en el que, a través del corto animado «Picchu», se preparan datos de entrenamiento mediante la extracción de fotogramas clave. Este proceso asegura la coherencia de los personajes principales, Mayu y su madre, favoreciendo la rápida generación de conceptos de guiones gráficos para futuras secuelas.
El flujo de trabajo automatizado inicia con la carga del video en un bucket de Amazon Simple Storage Service (S3) e involucra varias etapas, como la reducción de la resolución de los fotogramas y la selección de aquellos que muestran a los personajes, además de la generación de subtítulos mediante el modelo Amazon Nova. Posteriormente, los creadores pueden acceder a un entorno de notebook en Amazon SageMaker AI para iniciar el trabajo de entrenamiento del modelo.
La extracción de personajes se realiza tomando fotogramas de video a intervalos fijos, con técnicas de detección de etiquetas y búsqueda de rostros para identificar a los personajes. Este proceso se complementa con un algoritmo que deduplica imágenes visualmente similares, evitando el sobreajuste del modelo y asegurando la diversidad del conjunto de datos.
Una vez reunidas suficientes imágenes etiquetadas, se verifica la calidad de los datos mediante un proceso human-in-the-loop, garantizando que solo se use información precisa para el entrenamiento del modelo. Los resultados de las pruebas preliminares son prometedores, sugiriendo que con los ajustes adecuados en los hiperparámetros se puede lograr una mejora significativa en la consistencia visual.
Afinado el modelo, este queda listo para su despliegue, ya sea desde la consola de Amazon Bedrock o utilizando el SDK de Python para una integración más adaptada. Los creadores pueden probar el modelo para generar nuevas imágenes, manteniendo la coherencia estilística y de calidad en la narración de sus historias.
Con esta metodología, se espera no solo acelerar considerablemente la producción de guiones gráficos, sino también elevar la calidad del contenido visual, permitiendo a los equipos creativos concentrarse más en la narrativa y menos en la consistencia técnica.