Inteligência Artificial

GPT-5.4 mini e nano: o modelo certo não é o maior, é o que cabe no seu agente

A OpenAI lançou dois novos modelos hoje — e eles não são pra você usar direto no chat. São pra ser delegados. A era dos agentes tem uma nova lógica de custo, e ela muda como você vai construir com IA.

GPT-5.4 mini e nano: o modelo certo não é o maior, é o que cabe no seu agente

Tem uma pergunta que todo dev que trabalha com IA começa a fazer cedo ou tarde: por que estou pagando pelo modelo mais caro em todas as etapas?

Você usa o GPT-5.4 pra planejar. Pra escrever código. Pra revisar. Pra buscar no codebase. Pra classificar um arquivo. Pra extrair um dado de um documento. Tudo no mesmo modelo, tudo no mesmo custo, mesmo quando a tarefa é trivial.

O GPT-5.4 mini e nano chegaram hoje pra dizer que esse modelo de uso acabou. Ou pelo menos deveria acabar.

O que foi lançado
GPT-5.4
Flagship

Input Referência Uso ideal Planejamento, coordenação, revisão final

GPT-5.4 mini
Novo

Input $0,75/M tokens Output $4,50/M tokens Contexto 400k tokens Codex 30% da quota do flagship

GPT-5.4 nano
Novo · Mais barato

Input $0,20/M tokens Output $1,25/M tokens Uso ideal Classificação, extração, ranking

Métricas e sinais que ajudam a resumir impacto técnico com leitura imediata.

Mas o mini é bom o suficiente?

Essa é a pergunta que importa. E os benchmarks têm uma resposta interessante.

SWE-bench Pro — tarefas de código em repositórios reais:

  • GPT-5.4: ~56%

  • GPT-5.4 mini: 54,38% — apenas 2 pontos atrás

  • GPT-5.4 nano: ~28%

OSWorld-Verified — uso de computador e interface:

  • GPT-5.4: 75,03%

  • GPT-5.4 mini: 72,13% — 3 pontos atrás

  • GPT-5.4 nano: 39,61%

O mini fica a 2 pontos percentuais do flagship em código. Em uso de computador, 3 pontos. E roda mais do que duas vezes mais rápido.

Isso não é "quase bom". É bom o suficiente pra 80% das tarefas que um agente de código precisa fazer.

A lógica dos subagentes

O que a OpenAI está sinalizando vai além dos preços. É uma mudança de arquitetura — e ela já está acontecendo no Codex, o motor de coding agentico deles.

O modelo grande pensa. Os modelos menores executam. Em paralelo, em volume, sem gastar quota do flagship pra tarefas que não precisam dele.

É a mesma lógica dos microsserviços aplicada a modelos de IA: você não usa o servidor mais caro pra servir um arquivo estático. Você usa o certo pra cada função.

O que isso muda pra quem está construindo com IA

Se você está construindo qualquer coisa que chama modelos de IA em múltiplas etapas — seja um agente de código, um pipeline de análise, uma automação com n8n ou Langchain — essa arquitetura de modelos começa a fazer muito mais sentido do que usar o flagship em tudo.

Pensa num pipeline simples: receber um documento, extrair dados estruturados, classificar por categoria, gerar um resumo, revisar. Cada etapa tem um nível diferente de complexidade. Usar GPT-5.4 em todas é como contratar um arquiteto sênior pra fazer faxina.

Uma citação que resume bem

A OpenAI disse algo que vale guardar:

"O melhor modelo muitas vezes não é o maior — é o que consegue responder rápido, usar ferramentas de forma confiável e ainda performar bem em tarefas complexas e especializadas."

Isso é uma mudança de mentalidade. Por muito tempo, a corrida foi por modelos cada vez maiores. Agora a conversa está mudando pra modelos cada vez mais adequados — pro custo certo, na velocidade certa, pra tarefa certa.