Un reciente informe de McKinsey & Company ha estimado que la inteligencia artificial generativa podría añadir entre 2.6 y 4.4 billones de dólares al valor de la economía global, resaltando su potencial en áreas como operaciones con clientes, marketing, ventas, ingeniería de software e investigación y desarrollo. Este atractivo económico ha llevado a miles de empresas a desarrollar aplicaciones de inteligencia artificial generativa en Amazon Web Services (AWS).
A pesar del entusiasmo, muchos líderes en gestión de productos y arquitectura empresarial están buscando comprender mejor los costos asociados a estas aplicaciones y las estrategias para optimizarlos. Este artículo se centra en el análisis de costos, con la suposición de que los lectores ya poseen un conocimiento básico sobre modelos de base, modelos de lenguaje grandes, tokens y bases de datos vectoriales dentro de AWS.
Uno de los marcos más comúnmente utilizados en soluciones de IA generativa es la Generación Aumentada por Recuperación (RAG). Este enfoque permite a los modelos de lenguaje responder a preguntas específicas basadas en datos corporativos, incluso si no fueron entrenados específicamente con esa información. A partir de este contexto, se analizan pilares fundamentales para la optimización de costos y rendimiento, tales como la selección, elección y personalización de modelos, el uso de tokens, las opciones de costos de inferencia, entre otros factores.
La selección del modelo implica identificar cuál se adapta mejor a diversas necesidades empresariales, procediendo a su validación mediante conjuntos de datos de alta calidad. La elección en este caso se refiere a la adecuación de un modelo según sus características de precios y rendimiento, mientras que la personalización se enfoca en modificar modelos ya existentes utilizando datos de entrenamiento, con el fin de maximizar la eficiencia.
El análisis del uso de tokens se revela como un aspecto crucial, debido a que el costo operativo de un modelo de IA generativa se vincula directamente al número de tokens procesados. Implementar limitaciones en el número de tokens y adoptar estrategias de almacenamiento en caché pueden contribuir significativamente a la reducción de costos.
En relación con los planes de precios de inferencia, AWS facilita opciones como la modalidad bajo demanda, que es ideal para la mayoría de los modelos, y el uso de rendimiento provisionado, que asegura un nivel específico de rendimiento, aunque a un coste generalmente superior. Otros elementos importantes incluyen medidas de seguridad como filtros de contenido, costos derivados del uso de bases de datos vectoriales y estrategias de fragmentación de datos, los cuales pueden influir tanto en la precisión como en los costos generales.
Por ejemplo, los costos asociados pueden variar considerablemente dependiendo del volumen de consultas que una aplicación de asistente virtual reciba. Existen ejemplos que ilustran cómo los costos anuales pueden oscilar entre 12,577 y 134,252 dólares al emplear modelos de lenguaje como Claude 3 de Anthropic en diferentes escenarios de tamaño.
Finalmente, se exploran las implicaciones de utilizar servicios como Amazon Bedrock para acceder a modelos de alto rendimiento, junto con el uso de guardrails que permiten controlar el contenido y mejorar la seguridad de las aplicaciones. Esto resulta esencial en un entorno donde un asistente virtual puede interactuar con usuarios sobre múltiples temas, debiendo prevenir la generación de contenidos inapropiados.
Conforme la inteligencia artificial generativa sigue avanzando, es vital que las organizaciones permanezcan informadas sobre cómo puede fluctuar el costo de estas tecnologías y cómo optimizarlos para maximizar su valor. En futuras entregas, se profundizará en temas relacionados con la estimación del valor comercial y los factores que la incrementan.