Actualidad

Claude Sonnet 4.5: el nuevo “cerebro” de Anthropic que ya escribe código, usa el ordenador y crea archivos… y quiere conquistar también a creadores y marcas

Publicado el 30/09/2025
Por D C. Fernández

Anthropic ha presentado Claude Sonnet 4.5, su modelo de IA de última generación. El anuncio llega con una promesa ambiciosa —“el mejor modelo de código del mundo”— y una batería de funciones que trascienden la programación pura: ejecuta código, navega la web, rellena formularios, crea hojas de cálculo, presentaciones y documentos dentro del chat, y se integra con el navegador y con los entornos de trabajo más comunes. Para el público general y la economía de los creadores, la traducción es simple: menos copiar/pegar, menos fricción y más tareas que se pueden hacer sin salir de la conversación.

El modelo ya está disponible en la Claude API —y de forma nativa en Amazon Bedrock y Google Cloud Vertex AI— con el mismo precio que Sonnet 4 (3 $ por millón de tokens de entrada y 15 $ por millón de tokens de salida). Anthropic también ha actualizado Claude Code (su entorno de desarrollo) con checkpoints, un terminal renovado y una extensión nativa para VS Code; ha llevado la ejecución de código y la creación de archivos a las apps de Claude; y ha liberado un Agent SDK para que cualquier equipo pueda construir agentes capaces de trabajar durante horas con memoria, permisos finos y coordinación de subagentes.

Para quienes no son ingenieros, el titular práctico es otro: Claude Sonnet 4.5 convierte la IA en un asistente que “usa el ordenador” y produce resultados listos para publicar.

¿Por qué importa a usuarios, creadores y marcas (no solo a programadores)?

Hasta ahora, gran parte de la conversación sobre modelos avanzados se quedaba en pruebas técnicas o en demos de código. Sonnet 4.5 corre la cortina y pone foco en uso real del ordenador:

Desde la extensión de Chrome, Claude navega, localiza información, rellena spreadsheets con datos, completa formularios y genera archivos sin pedirte que saltes entre pestañas.
En las apps de Claude, puedes pedir un cuadro comparativo, una presentación o una tabla de planificación y obtener el archivo listo dentro de la conversación, sin exportaciones intermedias.
Los checkpoints permiten lanzar tareas largas (por ejemplo, crear una guía con 50 diapositivas o transformar un dataset grande) y volver atrás si algo no convence, como si fuesen “puntos de guardado” de un videojuego.

Para equipos de social media, content y marketing, esto significa que el flujo “pide → edita → publica” se acorta. No hace falta abrir el editor, maquetar desde cero o pelearse con formatos: Claude produce el archivo, tú lo revisas y lo subes.

Qué tan bueno es… según los datos que publica Anthropic

Anthropic respalda el lanzamiento con números de evaluaciones públicas (los benchmarks que se usan para comparar modelos). Algunos hitos:

SWE-bench Verified (resolver incidencias reales en repos de software): 77,2 % de aciertos con configuración estándar; con cómputo paralelo y selección de parches en inferencia llega al 82,0 %.
OSWorld (uso del ordenador en tareas reales): 61,4 %. Sonnet 4 tenía 42,2 % hace cuatro meses; el salto es notable.
Terminal-Bench (agente en terminal): 50,0 % (vs. 36,4 % de Sonnet 4).
AIME 2025 (matemáticas de instituto): 100 % con Python y 87,0 % sin herramientas.
Finance Agent (tareas de análisis financiero en el leaderboard de Vals AI): 55,3 %.
MMLU multilingüe (promedio en 14 idiomas, con razonamiento extendido): 89,1 %.

¿Y esto qué implica para alguien que no vive en Git o en la terminal? Que Claude entiende instrucciones complejas, maneja datos con soltura y soporta sesiones largas sin perder el hilo. Anthropic asegura que Sonnet 4.5 mantiene el foco durante más de 30 horas en tareas multietapa, algo clave para agentes que investigan, compilan información, cruzan fuentes y producen entregables.

Novedades de producto que sí notará el usuario final

1) Archivos “desde el chat”
En las apps de Claude (web y escritorio) ya se pueden crear y editar hojas de cálculo, presentaciones y documentos sin salir de la conversación. Pides una tabla, un deck o un reporte, y Claude lo genera y lo ajusta contigo.

2) Extensión de Chrome
Para quienes se apuntaron a la lista de espera el mes pasado, la extensión se abre a más usuarios Max. Claude opera sitios, completa formularios, recoge datos y los vuelca en un archivo que puedes descargar.

3) Menos límites de “memoria”
La API incorpora context editing (limpia contexto estancado automáticamente) y memory tool (guarda y consulta información fuera de la ventana de contexto). Traducido: menos “olvidos” en tareas largas y menos cortes por límite de contexto.

4) Checkpoints en Claude Code
Si tu equipo desarrolla o maqueta contenido con código (por ejemplo, landing pages o scripts de automatización), los checkpoints son oro: experimentas, guardas y, si te pierdes, vuelves al punto sano.

¿Y la seguridad? Anthropic endurece filtros y presume de “modelo más alineado”

Sonnet 4.5 sale con protecciones ASL-3 (AI Safety Level 3), que emparejan capacidades con salvaguardas. Incluyen clasificadores que tratan de detectar entradas o salidas peligrosas (con foco en CBRN: riesgos químicos, biológicos, radiológicos y nucleares). La compañía reconoce que estos filtros pueden “pasarse de frenada”, pero afirma haber reducido los falsos positivos ×10 desde su primera descripción y ×2 respecto a Opus 4 (mayo). Si un filtro corta una conversación por error, la app facilita seguir con Sonnet 4, considerado de menor riesgo.

Para el público general, la lectura es que Claude busca ser útil sin cruzar líneas. En su system card Anthropic publica por primera vez tests de alineamiento que miden comportamientos no deseados (adulación, engaño, búsqueda de poder, refuerzo de creencias delirantes) y asegura avances frente a versiones previas.

¿Qué cambia para creadores y equipos de redes sociales?

1) Investigación y guiones más rápidos
Con un mejor uso del ordenador, Claude puede navegar, abrir fuentes, traer datos a una hoja y armar un briefing con citas y enlaces. Menos tiempo copiando información, más tiempo puliendo el mensaje.

2) Piezas listas para publicar
Pides un post con variantes para X, Instagram, LinkedIn y TikTok, y Claude te las devuelve en un doc o en un sheet con columnas (texto, hashtags, CTA, timing). Si necesitas slides para una presentación interna, las genera en el acto.

3) Análisis de campañas sin dolor
Carga un CSV de rendimiento, deja que ejecute código para limpiar datos, graficar y sacar insights. Puedes iterar sobre la visualización dentro del mismo chat.

4) Supervisión sin sobresaltos
Los checkpoints y la memoria reducen los “me he perdido” típicos de las sesiones largas. Y si el clasificador corta alguna respuesta por confusa, tienes vía de escape con Sonnet 4.

Competencia: el tablero se mueve, pero aquí la estrategia es “más por el mismo precio”

En plena carrera entre gigantes, Anthropic opta por un mensaje que los equipos de marketing y social media entienden bien: más capacidades al mismo precio. Sonnet 4.5 mantiene la tarifa de Sonnet 4 y empuja en tres direcciones que importan al día a día:

Calidad (mejores resultados en benchmarks y en casos reales).
Operatividad (archivos, navegador, memoria, checkpoints).
Construcción de agentes (para quienes quieran automatizar de verdad sus flujos internos).

El Agent SDK no es solo un recurso para programadores: es la pieza que permite que medios, marcas y agencias creen agentes de contenidos o investigación con memoria, permisos y subtareas coordinadas. Imagínese un agente que cada mañana recolecta métricas, detecta anomalías, prepara un resumen y proyecta escenarios, mientras otro agente alimenta ese reporte con tendencias de la competencia y cambios de algoritmo. Sonnet 4.5 apunta a ese tipo de uso “de jornada completa”.

Disponibilidad y precio

Modelo: claude-sonnet-4-5.
Dónde: Claude API, Amazon Bedrock y Vertex AI (Google Cloud).
Precio: igual que Sonnet 4 (3 $/15 $ por millón de tokens).
Producto: actualizaciones en Claude Code (terminal, VS Code, checkpoints), apps (ejecución de código y creación de archivos) y extensión de Chrome para usuarios Max que estaban en lista de espera.
Para desarrolladores: Agent SDK, context editing y memory tool.
Extra temporal: “Imagine with Claude” (vista previa de investigación) para suscriptores Max durante 5 días, con generación de software en tiempo real “sin líneas prefijadas”.

Mirada crítica: ¿hype o utilidad real?

Los números de benchmark importan —y Sonnet 4.5 llega con mejoras tangibles—, pero el salto relevante para el público general es que Claude hace más cosas donde la gente trabaja: en el navegador y en los formatos de siempre. Archivos dentro del chat, memoria para no empezar de cero en cada sesión y checkpoints para no perder el trabajo largo son avances que bajan la barrera de entrada. Si de verdad la herramienta “usa el ordenador” de forma fiable, el caso de uso deja de ser “pídele un texto” y pasa a ser “pídele que haga el trabajo”.

Como siempre, la prueba decisiva está en tu caso real: ¿te ahorra tiempo? ¿reduce revisiones? ¿mantiene estilo y calidad? Con el mismo precio que Sonnet 4 y sin cambios de integración, testear parece un movimiento de bajo riesgo.

Preguntas frecuentes

¿Qué puede hacer Claude Sonnet 4.5 que note un usuario no técnico?
Además de escribir y depurar texto, usa el ordenador: navega, rellena hojas de cálculo, completa formularios y crea archivos (documentos, presentaciones y spreadsheets) desde la conversación. En las apps, puedes ejecutar código para analizar datos y producir gráficos sin salir del chat.

¿En qué mejora frente a Sonnet 4?
Marca saltos en pruebas públicas: SWE-bench (77,2 %, hasta 82,0 % con cómputo paralelo), OSWorld (61,4 %), Terminal-Bench (50,0 %), además de matemáticas y multilingüe. En producto, añade checkpoints, VS Code, extensión de Chrome, archivos dentro del chat, context editing y memory en la API.

¿Cuánto cuesta y dónde está disponible?
Mantiene el precio de Sonnet 4: 3 $ por millón de tokens de entrada y 15 $ por millón de tokens de salida. Está disponible en la Claude API, y de forma nativa en Amazon Bedrock y Google Cloud Vertex AI.

¿Qué es el Claude Agent SDK y por qué importa a un equipo de social media o marketing?
Es el kit con el que Anthropic construyó sus propios agentes (como Claude Code). Permite crear agentes con memoria, permisos y subagentes coordinados. Para marcas y creadores, habilita automatizar recolección de métricas, investigación de temas, borradores multiformato o reportes diarios con menos “pegamento” manual.

Nota: Las cifras de rendimiento y metodología provienen de la comunicación oficial de Anthropic y su system card para Claude Sonnet 4.5. Como con cualquier modelo, conviene validar resultados en los flujos reales de cada organización.