Cache antes de IA — como reduzir custo de sistemas de IA em 60% com uma pergunta simples

Existe uma pergunta que a maioria dos builders não faz antes de chamar a IA.

É uma pergunta simples. Óbvia quando você ouve pela primeira vez. E ignorada com frequência surpreendente.

A pergunta é: já respondi isso antes?

Se a resposta for sim — não precisa chamar a IA de novo.

Isso é cache. E é o princípio mais barato de toda a arquitetura de sistemas com IA.

O que é cache

Cache é um armazenamento temporário de resultados já calculados.

A ideia é simples: se você já fez um processamento caro uma vez, guarda o resultado. Quando o mesmo processamento for solicitado de novo, retorna o resultado guardado — sem refazer o trabalho.

Em sistemas de IA, "processamento caro" significa chamada ao modelo de linguagem. Cada chamada tem um custo em tokens, em tempo de processamento e em latência.

Cache elimina chamadas repetidas. Retorna o resultado na memória, em milissegundos, sem custo de API.

Por que cache é a pergunta que ninguém faz

Quando um builder constrói um sistema com IA, o foco natural vai para o modelo.

Qual modelo usar? Como estruturar o prompt? Como melhorar a qualidade da resposta?

Essas são as perguntas certas — mas elas pressupõem que cada chamada à IA é necessária.

Muitas vezes, não é.

Em sistemas reais, uma fração significativa das chamadas à IA é repetida. Mesmas perguntas de usuários diferentes. Mesmo dado processado várias vezes. Mesmo prompt com a mesma entrada.

Cada repetição paga o custo completo. Sem cache, você está comprando a mesma resposta diversas vezes.

O fluxo sem cache e com cache

Comparação de fluxo com e sem cache: custo por requisição repetida — Sem cache: mil perguntas iguais custam mil chamadas. Com cache: mil perguntas iguais custam uma chamada — e 999 retornos gratuitos.

O exemplo do infográfico é deliberadamente simples. Mas o princípio escala.

Em um sistema de classificação de e-mails com mil usuários ativos, uma parte das mensagens tem padrões comuns. Reclamações de atraso. Pedidos de cancelamento. Perguntas sobre preço.

Sem cache: cada mensagem gera uma chamada à IA. Custo proporcional ao volume.

Com cache de resultado por categoria + similaridade de texto: mensagens parecidas retornam a classificação já feita. Custo cai na proporção da taxa de acerto do cache.

Quando cache faz sentido

Cache funciona bem em situações específicas.

Mesma pergunta, múltiplos usuários.

Sistemas de suporte ao cliente, chatbots, assistentes internos. Usuários diferentes fazem perguntas semanticamente iguais. "Como cancelo minha assinatura?" Formulada de formas diferentes, mas com o mesmo significado.

Cache exato não resolve — a formulação varia. Mas cache por embedding resolve. Embedding é uma representação matemática do significado de um texto. Perguntas com significado parecido têm embeddings próximos. Você armazena as respostas e compara o significado de novas perguntas com o do que já foi respondido.

Mesmo dado processado repetidamente.

Um documento jurídico que é consultado por vários usuários. Um relatório financeiro analisado toda vez que alguém acessa. Um produto do catálogo que recebe extração de atributos a cada visualização.

Esses dados não mudam. O resultado da análise é o mesmo. Calcular de novo é desperdício.

Resultados com tempo de vida definido.

Cotação de moeda. Previsão do tempo. Resumo de notícias do dia.

Esse tipo de dado muda — mas com frequência previsível. Cache com TTL (tempo de expiração) resolve. TTL é o tempo que o resultado fica válido antes de ser descartado e recalculado.

Você define: "esse resultado é válido por 1 hora". Durante esse tempo, retorna do cache. Após expirar, o próximo acesso recalcula e armazena de novo.

O caso que mostra o tamanho do ganho

Em um sistema de análise de propostas comerciais, a versão inicial processava cada proposta com uma chamada à IA toda vez que era consultada.

O time percebia que as mesmas propostas eram abertas repetidamente — para revisão, para reunião, para compartilhamento com o cliente.

A solução foi cache de resultado por ID da proposta.

Na primeira abertura: IA processa, resultado armazenado. Nas aberturas seguintes: cache retorna o resultado em menos de 50 milissegundos, sem custo.

O resultado foi uma redução de 68% nas chamadas à IA. O custo mensal caiu proporcionalmente. A latência nas aberturas repetidas caiu de cerca de dois segundos para menos de cem milissegundos.

O sistema ficou mais rápido e mais barato ao mesmo tempo.

Os tipos de cache que existem em sistemas com IA

Cache exato. A entrada é idêntica — mesmo texto, mesma chave. Retorna o resultado armazenado. Simples e eficiente. Funciona bem para entradas estruturadas e previsíveis.

Cache semântico. A entrada tem o mesmo significado, mas formulação diferente. Usa embeddings para medir similaridade. Quando a nova entrada é semanticamente próxima de algo já processado, retorna o resultado anterior. Mais complexo, mais poderoso em sistemas com linguagem natural.

Cache de contexto. Armazena informações de contexto para não reenviar em cada chamada. Útil quando o prompt começa com um documento longo ou instruções fixas. Alguns provedores de IA cobram menos por tokens de contexto que estão em cache — a Anthropic tem uma funcionalidade chamada prompt caching que desconta o custo de partes repetidas do prompt.

Cache de sessão. Mantém o estado de uma conversa em memória enquanto ela está ativa. Evita buscar histórico do banco de dados a cada mensagem.

Quando cache não resolve

Cache não substitui IA quando:

A resposta precisa ser personalizada para aquele dado específico. Análise de um contrato inédito. Resposta que depende do histórico único do usuário. Geração criativa que precisa ser diferente a cada vez.

A pergunta nunca se repete. Se cada entrada é genuinamente única, não há cache que ajude. Cada chamada é de fato nova.

O dado muda com frequência maior que o TTL útil. Se o dado muda a cada minuto e o cache precisa ser recente demais para ser útil, o overhead de gerenciar o cache supera o ganho.

Em todos esses casos, a IA é necessária em cada chamada. Cache não adiciona valor.

A regra prática: se você consegue imaginar dois usuários diferentes fazendo a mesma pergunta — há potencial para cache.

A ordem certa na hierarquia

Cache é uma camada anterior à IA na hierarquia de decisão.

O fluxo correto é:

A requisição chegou.
Tenho isso em cache? Se sim — retorna do cache.
Código resolve sem IA? Se sim — processa com código.
Precisa de IA? Chama a IA, processa, armazena o resultado se fizer sentido.

Cache vem antes de tudo. Não como otimização posterior. Como parte do design desde o início.

Sistemas que adicionam cache depois de construídos geralmente têm a lógica de invalidação mais difícil de implementar — porque a estrutura de dados não foi projetada para isso.

Quando você pensa em cache desde o começo, você define quais resultados são cacheáveis, qual a chave de identificação, qual o TTL adequado para cada tipo de dado.

A pergunta antes de qualquer chamada à IA

Antes de cada chamada à IA no seu sistema, existe uma pergunta que vale fazer.

Não é uma pergunta sobre o modelo. Não é sobre o prompt. É sobre o resultado que você está prestes a calcular.

Já calculei isso antes? Vai mudar se eu calcular de novo agora?

Se a resposta for "já calculei e não vai mudar" — cache resolve.

Se a resposta for "ainda não calculei, ou vai ser diferente" — chama a IA.

Essa pergunta, feita com disciplina, pode eliminar 30 a 70% das chamadas em sistemas com padrões repetidos.

Não é glamourosa. Não aparece nos títulos sobre "agentes autônomos" ou "raciocínio multimodal".

Mas é a decisão que separa sistemas que escalam a custo controlado dos sistemas que surpreendem na fatura do mês.

Cache antes de IA: a pergunta que ninguém faz