GPT-5.4 mini e nano: o modelo certo não é o maior, é o que cabe no seu agente
A OpenAI lançou dois novos modelos hoje — e eles não são pra você usar direto no chat. São pra ser delegados. A era dos agentes tem uma nova lógica de custo, e ela muda como você vai construir com IA.

Tem uma pergunta que todo dev que trabalha com IA começa a fazer cedo ou tarde: por que estou pagando pelo modelo mais caro em todas as etapas?
Você usa o GPT-5.4 pra planejar. Pra escrever código. Pra revisar. Pra buscar no codebase. Pra classificar um arquivo. Pra extrair um dado de um documento. Tudo no mesmo modelo, tudo no mesmo custo, mesmo quando a tarefa é trivial.
O GPT-5.4 mini e nano chegaram hoje pra dizer que esse modelo de uso acabou. Ou pelo menos deveria acabar.
Input Referência Uso ideal Planejamento, coordenação, revisão final
Input $0,75/M tokens Output $4,50/M tokens Contexto 400k tokens Codex 30% da quota do flagship
Input $0,20/M tokens Output $1,25/M tokens Uso ideal Classificação, extração, ranking
Métricas e sinais que ajudam a resumir impacto técnico com leitura imediata.
Mas o mini é bom o suficiente?
Essa é a pergunta que importa. E os benchmarks têm uma resposta interessante.
SWE-bench Pro — tarefas de código em repositórios reais:
GPT-5.4: ~56%
GPT-5.4 mini: 54,38% — apenas 2 pontos atrás
GPT-5.4 nano: ~28%
OSWorld-Verified — uso de computador e interface:
GPT-5.4: 75,03%
GPT-5.4 mini: 72,13% — 3 pontos atrás
GPT-5.4 nano: 39,61%
O mini fica a 2 pontos percentuais do flagship em código. Em uso de computador, 3 pontos. E roda mais do que duas vezes mais rápido.
Isso não é "quase bom". É bom o suficiente pra 80% das tarefas que um agente de código precisa fazer.
A lógica dos subagentes
O que a OpenAI está sinalizando vai além dos preços. É uma mudança de arquitetura — e ela já está acontecendo no Codex, o motor de coding agentico deles.
O modelo grande pensa. Os modelos menores executam. Em paralelo, em volume, sem gastar quota do flagship pra tarefas que não precisam dele.
É a mesma lógica dos microsserviços aplicada a modelos de IA: você não usa o servidor mais caro pra servir um arquivo estático. Você usa o certo pra cada função.
O que isso muda pra quem está construindo com IA
Se você está construindo qualquer coisa que chama modelos de IA em múltiplas etapas — seja um agente de código, um pipeline de análise, uma automação com n8n ou Langchain — essa arquitetura de modelos começa a fazer muito mais sentido do que usar o flagship em tudo.
Pensa num pipeline simples: receber um documento, extrair dados estruturados, classificar por categoria, gerar um resumo, revisar. Cada etapa tem um nível diferente de complexidade. Usar GPT-5.4 em todas é como contratar um arquiteto sênior pra fazer faxina.
Uma citação que resume bem
A OpenAI disse algo que vale guardar:
"O melhor modelo muitas vezes não é o maior — é o que consegue responder rápido, usar ferramentas de forma confiável e ainda performar bem em tarefas complexas e especializadas."
Isso é uma mudança de mentalidade. Por muito tempo, a corrida foi por modelos cada vez maiores. Agora a conversa está mudando pra modelos cada vez mais adequados — pro custo certo, na velocidade certa, pra tarefa certa.


