La Inteligencia Artificial generativa ha entrado en una fase menos cómoda para empresas, desarrolladores y proveedores tecnológicos. Después de dos años de entusiasmo, pilotos rápidos y promesas de productividad casi automática, el mercado empieza a mirar una variable que hasta ahora quedaba tapada por las suscripciones mensuales: el coste real de ejecutar modelos a gran escala.
La conversación ya no gira solo en torno a qué modelo razona mejor, cuál programa con más precisión o qué asistente ofrece mejores respuestas. La pregunta que llega a los comités de dirección es más directa: cuánto cuesta mantener esos modelos trabajando todos los días, con agentes autónomos, contexto largo, llamadas a herramientas, generación de código, análisis de documentos y flujos que iteran varias veces antes de entregar un resultado útil.
El token sustituye a la licencia como unidad económica
El software empresarial se ha entendido durante años como una licencia por usuario, una suscripción mensual o un contrato anual. La Inteligencia Artificial rompe parcialmente ese esquema porque cada uso tiene un coste variable. Cada entrada al modelo consume tokens. Cada respuesta también. Si hay contexto largo, herramientas externas, razonamiento en varias fases o agentes trabajando en segundo plano, el consumo puede multiplicarse.
GitHub ha puesto sobre la mesa una de las señales más claras. Copilot pasa a un modelo de facturación basado en GitHub AI Credits, donde el consumo se calcula según tokens de entrada, salida y caché, dependiendo del modelo utilizado. La empresa mantiene planes de suscripción, pero introduce una capa de medición más próxima al uso real. No es un detalle menor: Copilot ya no es solo autocompletado en el editor, sino una plataforma que incorpora agentes capaces de trabajar sobre repositorios, revisar código y ejecutar tareas de varios pasos.
Este cambio confirma una tendencia que muchos responsables técnicos ya estaban viendo: la tarifa plana pura no encaja bien con flujos agénticos intensivos. Un desarrollador que pide ayuda ocasional para una función no consume lo mismo que un equipo que usa agentes para pruebas, refactorización, documentación, revisión de seguridad o análisis de grandes bases de código.
Noticias.AI recogía recientemente el aviso de GitLab sobre esta presión de costes en el desarrollo asistido por IA. Según los datos citados por ese medio, un 29 % de las organizaciones ya declara costes de tokens de entre 200 y 500 dólares por desarrollador al mes, mientras que los usuarios intensivos pueden superar los 2.000 dólares mensuales cuando los agentes se integran en tareas diarias de generación de código, pruebas, refactorización y documentación.
Tabla comparativa: precios por 1 millón de tokens
Los precios de esta tabla son orientativos y pueden variar según cuándo se lea el artículo. También pueden cambiar por región, modalidad de uso, contexto largo, caché, batch processing, prioridad, acuerdos enterprise, promociones temporales o cambios comerciales de cada proveedor. No todos los modelos son equivalentes en calidad, velocidad, seguridad, soporte, cumplimiento normativo o disponibilidad empresarial.
Precios orientativos por 1 millón de tokens. Pueden variar según la fecha de lectura, región, modalidad de uso, contexto largo, caché, batch processing, prioridad, acuerdos enterprise o cambios comerciales de cada proveedor.
| Región | Empresa | Modelo de referencia | Entrada por 1M tokens | Salida por 1M tokens | Lectura para uso agéntico |
|---|---|---|---|---|---|
| EE. UU. | OpenAI | GPT-5.5 | 5,00 $ | 30,00 $ | Coste alto cuando el agente genera mucho texto, código o razonamiento. |
| EE. UU. | Anthropic | Claude Opus 4.7 | 5,00 $ | 25,00 $ | Potente, pero caro en flujos largos con mucha salida. |
| EE. UU. | Gemini 3.5 Flash | 1,50 $ | 9,00 $ | Más competitivo, aunque el razonamiento y el contexto pueden elevar el gasto. | |
| EE. UU. | xAI | Grok 4 | 1,25 $ | 2,50 $ | Precio agresivo frente a otros modelos estadounidenses. |
| China | DeepSeek | DeepSeek V4 Pro | 0,435 $ | 0,87 $ | Muy atractivo para cargas masivas y arquitecturas multiagente. |
| China | Alibaba / Qwen | Qwen-Max | Variable | Variable | Alibaba aplica precios por tokens con diferencias según región, modalidad y descuentos. |
| China | Z.ai / Zhipu | GLM-5 | Desde 0,573 $ | Desde 2,58 $ | Coste competitivo, con tarifas que pueden variar por tamaño de entrada. |
| China | Baidu | ERNIE 4.5 | Desde 0,55 $ aprox. | Desde 2,20 $ aprox. | Precios aproximados convertidos desde referencias públicas en yuanes. |
| China | MiniMax | MiniMax M2.5 / M2.7 | Desde 0,304 $ aprox. | Desde 1,213 $ aprox. | Muy competitivo para tareas de razonamiento y agentes de alto volumen. |
La tabla muestra una fractura que puede marcar la próxima fase del mercado. Los modelos estadounidenses de gama alta mantienen precios de salida elevados, justo la parte que más pesa en asistentes de programación, agentes documentales, sistemas de análisis, generación de informes y automatizaciones largas. En paralelo, varios proveedores chinos compiten con precios muy bajos, aunque no siempre con las mismas garantías de integración empresarial, residencia de datos, soporte, cumplimiento normativo o estabilidad comercial.
La eficiencia se convierte en una ventaja competitiva
La industria ha vendido durante meses la idea de que cada nueva generación de modelos sería mejor y más barata. Puede ocurrir en algunas gamas, pero el uso real va por otro camino: modelos más capaces generan más demanda, más contexto y más automatización. Es la paradoja de la eficiencia. Aunque el coste unitario baje, el gasto total puede subir porque la empresa usa la herramienta en más procesos.
RevistaCloud lo resumía bien al analizar la familia Nemotron 3 de NVIDIA: la “tokenómica”, es decir, cuánto cuesta realmente operar un agente, se está convirtiendo en una variable estratégica. NVIDIA plantea modelos abiertos y eficientes como una pieza para reducir el coste de flujos largos, sistemas con muchos agentes concurrentes y arquitecturas donde no todo debe enviarse a un modelo propietario de frontera.
Esa será probablemente la arquitectura dominante en muchas empresas: no un único modelo para todo, sino una mezcla. Modelos de frontera para tareas complejas, modelos más baratos para clasificación, resumen o extracción, modelos abiertos cuando haya requisitos de privacidad o control, caché para reducir llamadas repetidas y observabilidad para saber qué equipo consume qué y con qué retorno.
La pregunta ya no será “qué modelo es mejor”, sino “qué modelo merece la pena para esta tarea concreta”. En programación, por ejemplo, quizá tenga sentido pagar un modelo caro para una migración compleja o una revisión crítica de seguridad, pero no para generar documentación básica o clasificar incidencias repetitivas. En atención al cliente, el coste de un agente tiene que compararse con el ahorro real, la calidad de respuesta y el riesgo de error.
El riesgo de una IA de dos velocidades
El coste de los tokens introduce una desigualdad nueva. Las grandes empresas podrán negociar descuentos, contratar capacidad reservada, desplegar infraestructura propia o mezclar proveedores con más facilidad. Las pymes, universidades, medios pequeños, desarrolladores independientes e investigadores tendrán menos margen. Si un flujo agéntico avanzado exige facturas mensuales de cinco o seis cifras, la capacidad de experimentar también se concentrará.
Esto no significa que la Inteligencia Artificial deje de ser accesible. Habrá modelos pequeños, alternativas open source, servicios gratuitos limitados y proveedores baratos. Pero la IA más potente, persistente y automatizada puede quedar reservada a quienes puedan pagar inferencia de forma continua.
La presión también afectará a los proveedores. Si bajan precios demasiado rápido, erosionan márgenes en un negocio que exige inversiones enormes en centros de datos, aceleradores, energía y talento. Si mantienen precios altos, limitan la adopción masiva y empujan a los clientes hacia modelos más baratos o despliegues propios. El equilibrio será difícil.
El mercado chino añade otra capa. Sus modelos de bajo coste son una válvula de escape para desarrolladores y empresas que necesitan volumen. Pero no conviene leer esos precios como una garantía permanente. Pueden responder a estrategias de cuota, subsidios, guerras comerciales o momentos concretos de capacidad. Si la demanda se dispara o cambian las condiciones geopolíticas, la ventaja puede reducirse.
La era de la IA agéntica no estará limitada solo por la calidad de los modelos. También por presupuestos, arquitectura, eficiencia y capacidad de gobierno. La abundancia prometida por la Inteligencia Artificial no desaparecerá, pero será menos homogénea de lo que se dijo al principio. En la práctica, ganará quien sepa usar mejores modelos cuando haga falta y modelos suficientes cuando baste.
Preguntas frecuentes
¿Por qué la IA agéntica consume más tokens que un chatbot?
Porque un agente no responde una sola vez. Planifica, lee contexto, llama a herramientas, genera pasos intermedios, revisa resultados y vuelve a intentarlo. Cada ciclo suma tokens.
¿Los precios de la tabla son definitivos?
No. Los precios pueden variar según la fecha de lectura, proveedor, región, caché, batch processing, prioridad, modalidad enterprise o cambios comerciales.
¿Los modelos chinos son siempre mejores por precio?
No necesariamente. Pueden ser mucho más baratos, pero hay que evaluar calidad, latencia, privacidad, residencia del dato, soporte, cumplimiento normativo y disponibilidad.
¿Cómo pueden controlar las empresas el coste de la IA?
Midiendo consumo por caso de uso, fijando presupuestos, usando modelos distintos según la tarea, aplicando caché, limitando agentes persistentes y calculando coste por resultado.