Economia de tokens é uma funcionalidade

Todo sistema com IA tem dois preços.

O primeiro é o preço que o usuário paga. O segundo é o preço que você paga à API.

A maioria dos builders pensa só no primeiro.

O segundo define se o negócio funciona em escala.

O que significa tratar tokens como funcionalidade

Em desenvolvimento de software tradicional, performance e custo de infraestrutura são problemas de operações.

Você lança o produto, ele cresce, aí você escala.

Em sistemas com IA, esse modelo não funciona.

O custo de tokens é diretamente proporcional ao uso. Cada consulta a mais custa mais. Não existe "escalar a infra" que resolve — o custo de API escala junto.

Um sistema que consome 10.000 tokens por usuário por dia vai consumir 1.000.000 tokens com 100 usuários. A conta chega antes do receita justificar.

Tratar economia de tokens como funcionalidade significa: projetar o sistema para ser eficiente desde o início, da mesma forma que se projeta para ser seguro ou confiável.

Não é otimização prematura. É arquitetura básica.

Os 5 mecanismos de economia de tokens

1. Cache de respostas

A pergunta mais cara é a que você já respondeu antes.

Se usuários diferentes fazem a mesma pergunta, a resposta não precisa ser gerada de novo. Cache exato guarda a pergunta e a resposta. Quando a mesma pergunta chega, retorna sem chamar a API.

Em um sistema de FAQ com IA, cache reduziu o custo em 68%. As 200 perguntas mais comuns representavam 70% do volume.

Quando usar: perguntas previsíveis, conteúdo que não muda com frequência, contexto sem personalização.

2. Compressão de prompt

A maioria dos prompts contém muito mais contexto do que a IA precisa para responder.

Um prompt de sistema com 800 tokens de instruções longas pode ser reescrito em 200 tokens sem perda de qualidade. Cada chamada economiza 600 tokens de input.

Com 10.000 chamadas por mês, são 6 milhões de tokens economizados só no prompt de sistema.

Técnicas práticas:

Remover exemplos redundantes
Substituir parágrafos explicativos por listas concisas
Eliminar instruções sobre casos que nunca ocorrem
Usar formato estruturado em vez de linguagem natural para instruções

3. Contexto seletivo

Em sistemas com histórico de conversa ou base de documentos, o erro mais comum é enviar tudo.

Um chat com 30 mensagens de histórico não precisa enviar as 30 para cada nova resposta. As últimas 5-8 geralmente são suficientes para manter coerência.

Uma base de conhecimento com 500 documentos não precisa enviar os 500. RAG (busca vetorial) seleciona os 3-5 mais relevantes para cada consulta.

Regra prática: envie o contexto mínimo necessário para a IA responder com qualidade. Mais contexto não é sempre melhor — às vezes piora a precisão e sempre aumenta o custo.

4. Hierarquia de modelos

Nem toda tarefa precisa do modelo mais caro.

Classificar um texto em 3 categorias não precisa do mesmo modelo que escreve um artigo técnico de 2.000 palavras.

Em um pipeline com múltiplas etapas, é possível usar modelos menores nas etapas de triagem e routing, e o modelo principal apenas nas etapas que exigem qualidade.

| Tarefa | Modelo adequado | |--------|----------------| | Classificação binária | Haiku / GPT-4o-mini | | Extração de dados estruturados | Haiku / GPT-4o-mini | | Resumo de texto curto | Sonnet / GPT-4o | | Geração de conteúdo longo | Opus / GPT-4o | | Análise técnica complexa | Opus / o1 |

O custo por token entre o menor e o maior modelo pode variar 15x a 20x.

5. Pré-processamento antes da IA

O que chega ao LLM determina quanto o LLM precisa trabalhar.

Dados mal formatados, documentos sem estrutura, perguntas ambíguas — tudo isso aumenta o contexto necessário e a probabilidade de erro.

Investir em pré-processamento reduz tokens e aumenta precisão ao mesmo tempo:

Converter PDF para Markdown antes de enviar
Extrair campos estruturados antes de pedir análise
Normalizar linguagem do usuário antes de processar
Filtrar e limpar dados antes de incluir no prompt

Como calcular o custo antes de lançar

Antes de publicar qualquer sistema com IA, vale fazer esse cálculo:

Tokens por consulta = prompt de sistema + contexto + input do usuário + output médio

Custo por consulta = tokens totais × preço por 1M tokens ÷ 1.000.000

Custo mensal projetado = custo por consulta × consultas/mês esperadas

Exemplo real:

Prompt de sistema:    800 tokens
Contexto de histórico: 2.000 tokens
Input do usuário:     150 tokens
Output médio:        600 tokens
Total por consulta:  3.550 tokens

Claude Sonnet: ~$3/1M tokens input, ~$15/1M output
Custo input:  (2.950 × $3) ÷ 1.000.000 = $0,0089
Custo output: (600 × $15) ÷ 1.000.000  = $0,009
Total:        ~$0,018 por consulta

Com 5.000 consultas/mês: $90/mês
Com 50.000 consultas/mês: $900/mês

Esse cálculo muda decisões de produto.

Com $900/mês de custo de API, qual é a margem necessária por usuário? Qual é o plano de preço mínimo que faz sentido? Vale restringir consultas no plano gratuito?

Essas perguntas não são de operações. São de produto.

O sinal de alerta no fim do mês

Em um projeto com IA, existem dois tipos de surpresa na fatura mensal.

A primeira é uma surpresa de crescimento: o custo aumentou porque o uso aumentou. Isso é bom.

A segunda é uma surpresa de ineficiência: o custo está alto mas o uso está baixo. Cada consulta custa mais do que deveria.

O segundo tipo é evitável. Ele aparece quando tokens são tratados como detalhe de implementação em vez de decisão de arquitetura.

O que isso muda na prática

Em projetos novos: inclua o cálculo de custo de tokens no design inicial. Defina um orçamento de tokens por consulta antes de escrever o primeiro prompt.

Em projetos existentes: meça o custo real por consulta. Compare com o esperado. Identifique quais etapas consomem mais. Aplique os mecanismos acima começando pelo maior consumidor.

A diferença entre um sistema eficiente e um ineficiente raramente está no modelo escolhido.

Está nas decisões tomadas sobre o que entra no contexto — e o que não entra.

Esse artigo faz parte da trilha Arquitetura de IA para Builders. Se você ainda não leu Cache antes de IA, ele complementa diretamente este com casos práticos de implementação.