Inteligencia Artificial

GPT-5.4 mini y nano: el modelo correcto no es el más grande, es el que cabe en tu agente

OpenAI lanzó hoy dos nuevos modelos — y no son para que los uses directamente en el chat. Son para ser delegados. La era de los agentes tiene una nueva lógica de costes, y cambia cómo construirás con IA.

GPT-5.4 mini y nano: el modelo correcto no es el más grande, es el que cabe en tu agente

Hay una pregunta que todo desarrollador que trabaja con IA empieza a hacerse tarde o temprano: ¿por qué estoy pagando por el modelo más caro en todas las etapas?

Usas GPT-5.4 para planificar. Para escribir código. Para revisar. Para buscar en la base de código. Para clasificar un archivo. Para extraer datos de un documento. Todo con el mismo modelo, todo con el mismo coste, incluso cuando la tarea es trivial.

GPT-5.4 mini y nano llegaron hoy para decir que este modelo de uso se acabó. O al menos debería acabarse.

Lo que se lanzó
GPT-5.4
Flagship

Entrada Referencia Uso ideal Planificación, coordinación, revisión final

GPT-5.4 mini
Nuevo

Entrada $0,75/M tokens Salida $4,50/M tokens Contexto 400k tokens Codex 30% de la cuota del flagship

GPT-5.4 nano
Nuevo · Más barato

Entrada $0,20/M tokens Salida $1,25/M tokens Uso ideal Clasificación, extracción, ranking

Métricas y señales que ayudan a resumir el impacto técnico con lectura inmediata.

¿Pero el mini es lo suficientemente bueno?

Esa es la pregunta importante. Y los benchmarks tienen una respuesta interesante.

SWE-bench Pro — tareas de código en repositorios reales:

  • GPT-5.4: ~56%

  • GPT-5.4 mini: 54,38% — solo 2 puntos por debajo

  • GPT-5.4 nano: ~28%

OSWorld-Verified — uso de computador e interfaz:

  • GPT-5.4: 75,03%

  • GPT-5.4 mini: 72,13% — 3 puntos por debajo

  • GPT-5.4 nano: 39,61%

El mini se queda a 2 puntos porcentuales del flagship en código. En uso de computadora, 3 puntos. Y funciona más del doble de rápido.

Esto no es "casi bueno". Es lo suficientemente bueno para el 80% de las tareas que un agente de código necesita hacer.

La lógica de los subagentes

Lo que OpenAI está señalando va más allá de los precios. Es un cambio de arquitectura — y ya está ocurriendo en Codex, su motor de agentes de codificación.

El modelo grande piensa. Los modelos más pequeños ejecutan. En paralelo, en volumen, sin gastar la cuota del flagship para tareas que no lo necesitan.

Es la misma lógica de los microservicios aplicada a modelos de IA: no usas el servidor más caro para servir un archivo estático. Usas el correcto para cada función.

Lo que esto cambia para quien está construyendo con IA

Si estás construyendo algo que llama a modelos de IA en múltiples etapas — ya sea un agente de código, un pipeline de análisis, una automatización con n8n o Langchain — esta arquitectura de modelos empieza a tener mucho más sentido que usar el flagship en todo.

Piensa en un pipeline simple: recibir un documento, extraer datos estructurados, clasificar por categoría, generar un resumen, revisar. Cada etapa tiene un nivel diferente de complejidad. Usar GPT-5.4 en todas es como contratar a un arquitecto sénior para hacer la limpieza.

Una cita que resume bien

OpenAI dijo algo que vale la pena recordar:

"El mejor modelo a menudo no es el más grande — es el que puede responder rápido, usar herramientas de forma confiable y aún así rendir bien en tareas complejas y especializadas."

Esto es un cambio de mentalidad. Durante mucho tiempo, la carrera fue por modelos cada vez más grandes. Ahora la conversación está cambiando hacia modelos cada vez más adecuados — para el coste correcto, a la velocidad correcta, para la tarea correcta.