Economia de tokens é uma funcionalidade
A maioria trata custo de tokens como problema de operações. Arquitetos tratam como decisão de produto. A diferença define o que o sistema consegue fazer — e quanto custa fazer.
Todo sistema com IA tem dois preços.
O primeiro é o preço que o usuário paga. O segundo é o preço que você paga à API.
A maioria dos builders pensa só no primeiro.
O segundo define se o negócio funciona em escala.
O que significa tratar tokens como funcionalidade
Em desenvolvimento de software tradicional, performance e custo de infraestrutura são problemas de operações.
Você lança o produto, ele cresce, aí você escala.
Em sistemas com IA, esse modelo não funciona.
O custo de tokens é diretamente proporcional ao uso. Cada consulta a mais custa mais. Não existe "escalar a infra" que resolve — o custo de API escala junto.
Um sistema que consome 10.000 tokens por usuário por dia vai consumir 1.000.000 tokens com 100 usuários. A conta chega antes do receita justificar.
Tratar economia de tokens como funcionalidade significa: projetar o sistema para ser eficiente desde o início, da mesma forma que se projeta para ser seguro ou confiável.
Não é otimização prematura. É arquitetura básica.
Os 5 mecanismos de economia de tokens
1. Cache de respostas
A pergunta mais cara é a que você já respondeu antes.
Se usuários diferentes fazem a mesma pergunta, a resposta não precisa ser gerada de novo. Cache exato guarda a pergunta e a resposta. Quando a mesma pergunta chega, retorna sem chamar a API.
Em um sistema de FAQ com IA, cache reduziu o custo em 68%. As 200 perguntas mais comuns representavam 70% do volume.
Quando usar: perguntas previsíveis, conteúdo que não muda com frequência, contexto sem personalização.
2. Compressão de prompt
A maioria dos prompts contém muito mais contexto do que a IA precisa para responder.
Um prompt de sistema com 800 tokens de instruções longas pode ser reescrito em 200 tokens sem perda de qualidade. Cada chamada economiza 600 tokens de input.
Com 10.000 chamadas por mês, são 6 milhões de tokens economizados só no prompt de sistema.
Técnicas práticas:
- Remover exemplos redundantes
- Substituir parágrafos explicativos por listas concisas
- Eliminar instruções sobre casos que nunca ocorrem
- Usar formato estruturado em vez de linguagem natural para instruções
3. Contexto seletivo
Em sistemas com histórico de conversa ou base de documentos, o erro mais comum é enviar tudo.
Um chat com 30 mensagens de histórico não precisa enviar as 30 para cada nova resposta. As últimas 5-8 geralmente são suficientes para manter coerência.
Uma base de conhecimento com 500 documentos não precisa enviar os 500. RAG (busca vetorial) seleciona os 3-5 mais relevantes para cada consulta.
Regra prática: envie o contexto mínimo necessário para a IA responder com qualidade. Mais contexto não é sempre melhor — às vezes piora a precisão e sempre aumenta o custo.
4. Hierarquia de modelos
Nem toda tarefa precisa do modelo mais caro.
Classificar um texto em 3 categorias não precisa do mesmo modelo que escreve um artigo técnico de 2.000 palavras.
Em um pipeline com múltiplas etapas, é possível usar modelos menores nas etapas de triagem e routing, e o modelo principal apenas nas etapas que exigem qualidade.
| Tarefa | Modelo adequado | |--------|----------------| | Classificação binária | Haiku / GPT-4o-mini | | Extração de dados estruturados | Haiku / GPT-4o-mini | | Resumo de texto curto | Sonnet / GPT-4o | | Geração de conteúdo longo | Opus / GPT-4o | | Análise técnica complexa | Opus / o1 |
O custo por token entre o menor e o maior modelo pode variar 15x a 20x.
5. Pré-processamento antes da IA
O que chega ao LLM determina quanto o LLM precisa trabalhar.
Dados mal formatados, documentos sem estrutura, perguntas ambíguas — tudo isso aumenta o contexto necessário e a probabilidade de erro.
Investir em pré-processamento reduz tokens e aumenta precisão ao mesmo tempo:
- Converter PDF para Markdown antes de enviar
- Extrair campos estruturados antes de pedir análise
- Normalizar linguagem do usuário antes de processar
- Filtrar e limpar dados antes de incluir no prompt
Como calcular o custo antes de lançar
Antes de publicar qualquer sistema com IA, vale fazer esse cálculo:
Tokens por consulta = prompt de sistema + contexto + input do usuário + output médio
Custo por consulta = tokens totais × preço por 1M tokens ÷ 1.000.000
Custo mensal projetado = custo por consulta × consultas/mês esperadas
Exemplo real:
Prompt de sistema: 800 tokens
Contexto de histórico: 2.000 tokens
Input do usuário: 150 tokens
Output médio: 600 tokens
Total por consulta: 3.550 tokens
Claude Sonnet: ~$3/1M tokens input, ~$15/1M output
Custo input: (2.950 × $3) ÷ 1.000.000 = $0,0089
Custo output: (600 × $15) ÷ 1.000.000 = $0,009
Total: ~$0,018 por consulta
Com 5.000 consultas/mês: $90/mês
Com 50.000 consultas/mês: $900/mês
Esse cálculo muda decisões de produto.
Com $900/mês de custo de API, qual é a margem necessária por usuário? Qual é o plano de preço mínimo que faz sentido? Vale restringir consultas no plano gratuito?
Essas perguntas não são de operações. São de produto.
O sinal de alerta no fim do mês
Em um projeto com IA, existem dois tipos de surpresa na fatura mensal.
A primeira é uma surpresa de crescimento: o custo aumentou porque o uso aumentou. Isso é bom.
A segunda é uma surpresa de ineficiência: o custo está alto mas o uso está baixo. Cada consulta custa mais do que deveria.
O segundo tipo é evitável. Ele aparece quando tokens são tratados como detalhe de implementação em vez de decisão de arquitetura.
O que isso muda na prática
Em projetos novos: inclua o cálculo de custo de tokens no design inicial. Defina um orçamento de tokens por consulta antes de escrever o primeiro prompt.
Em projetos existentes: meça o custo real por consulta. Compare com o esperado. Identifique quais etapas consomem mais. Aplique os mecanismos acima começando pelo maior consumidor.
A diferença entre um sistema eficiente e um ineficiente raramente está no modelo escolhido.
Está nas decisões tomadas sobre o que entra no contexto — e o que não entra.
Esse artigo faz parte da trilha Arquitetura de IA para Builders. Se você ainda não leu Cache antes de IA, ele complementa diretamente este com casos práticos de implementação.
// teste seu entendimento
Por que 'economia de tokens' é descrita como uma funcionalidade e não como uma otimização?