Em resumo
- A maioria dos usuários de IA não percebe que a verbosidade do modelo consome tokens que você está pagando.
- Um prompt mal feito pode gerar respostas 3-5x maiores do que o necessário.
- A solução não é reclamar do modelo — é aprender a pedir o tipo de resposta que você precisa.
- Pequenas mudanças no prompt economizam 30-40% dos tokens em tarefas repetitivas.
O dia em que eu olhei meu gasto de tokens
Eu uso IA para tudo: código, texto, análise, revisão, automação. Até o mês passado, eu não olhava quanto estava gastando em tokens. Quando finalmente olhei, o número me assustou: estava queimando mais de $200 por mês só em chamadas de API.
Mas o número em si não era o problema. O problema era que, quando analisei as chamadas, percebi que uns 40% dos tokens eram a IA explicando coisas que eu não tinha pedido. Ela resumia o que entendeu, listava alternativas que não existiam, dava contexto histórico que eu já sabia, e depois — finalmente — respondia o que eu queria.
O modelo não estava errado. Eu estava pedindo errado.
Por que a IA explica tanto
Os modelos de IA são treinados para serem úteis e completos. Isso é bom quando você está aprendendo algo novo. É péssimo quando você quer uma resposta direta para uma pergunta específica.
O problema é que a maioria dos prompts não diz à IA o tipo de resposta esperada. Quando você pergunta "como faço para configurar X?", o modelo assume que você quer:
. Por que você deveria configurar X.
- Uma explicação do que é X.
- Os pré-requisitos.
- Os passos.
- Possíveis erros.
- Alternativas.
Quando na verdade você queria só os passos.
O processo que me economizou 40% dos tokens
A solução foi criar um padrão de prompt que eu uso em todas as chamadas recorrentes. Não é complicado — são três regras:
Regra 1: Especifique o formato da resposta. Em vez de perguntar como fazer algo, peça "liste apenas os passos, sem explicação prévia". Isso soa óbvio, mas 90% das pessoas não fazem.
Regra 2: Diga o que você já sabe. Se você já sabe o contexto, diga. "Eu sei que X faz Y. Me diga apenas como configurar Z." Isso elimina a parte explicativa da resposta.
Regra 3: Limite o tamanho. Peça "responda em até 100 palavras" ou "dê apenas o código, sem comentários". Modelos respeitam limites quando você os impõe.
Resultados reais
Após aplicar essas três regras por um mês:
- Meu gasto de tokens caiu de $200 para $120 por mês.
- Minha velocidade de trabalho aumentou porque eu lia menos e fazia mais.
- A qualidade das respostas não caiu — na verdade, melhorou, porque o modelo focava no que eu precisava.
O mais interessante: quando eu precisava de explicações detalhadas — para aprender algo novo ou revisar uma decisão — eu pedia explicitamente. "Explique como se eu fosse iniciante" ou "liste os trade-offs de cada abordagem." A IA continuava sendo verbosa quando eu queria que fosse.
O erro que quase todo mundo comete
O erro mais comum não é usar IA errado. É tratar a IA como se ela soubesse o que você quer sem você dizer. A IA não sabe se você quer resumo ou detalhe, código ou explicação, opção única ou lista de alternativas. Se você não diz, ela assume — e o padrão é sempre "mais completo possível."
Isso é como contratar um consultor e não dizer o escopo. Ele vai entregar 200 páginas porque não sabe se você queria 5.
Quando a verbosidade é boa
Não estou dizendo que respostas longas são ruins. Elas são essenciais quando:
- Você está aprendendo um assunto novo.
- Está revisando uma decisão importante.
- Precisa entender trade-offs complexos.
- Está pedindo feedback sobre código ou texto.
O problema é quando você paga por verbosidade que não precisa. É como ligar o ar condicionado com a janela aberta.
O teste que fiz com minha equipe
Para validar se isso funcionava para outras pessoas, pedi para três colegas aplicarem as mesmas três regras por uma semana. Os resultados foram consistentes: todos relataram redução no tempo de leitura e na satisfação com as respostas. Um deles economizou 50% dos tokens porque trabalhava com geração de relatórios — uma tarefa onde a verbosidade padrão é especialmente custosa.
O interessante e que dois deles disseram que no começo parecia que estavam sendo rudos com a IA. Pedir "só os passos, sem explicação" soava grosso. Mas a IA nao se ofende. Ela obedece. E o resultado e melhor para todo mundo — menos tokens, mais foco, menos ruído.
Se você trabalha com volume — e qualquer pessoa que usa IA para trabalho provavelmente trabalha — a diferença entre um prompt bom e um prompt mediano e dinheiro real. Não é uma otimização de nicho. E a diferença entre sustentável e insustentável. E o melhor: é uma habilidade que você aprende uma vez e aplica para sempre.
Perguntas que eu faria antes de marcar uma call
Isso funciona com qualquer modelo de IA?
Sim. GPT, Claude, Gemini, modelos locais — todos respondem a prompts que especificam formato e tamanho. A diferença é o quanto cada modelo obedece, mas todos obedecem parcialmente.
E se eu precisar de uma resposta longa?
Peça explicitamente. Diga 'explique em detalhes' ou 'liste todos os trade-offs'. O ponto não é que respostas longas são ruins — é que respostas longas não pedidas são desperdício.
Se quiser comparar isso com a sua operação
Se você sente que está lendo demais e produzindo de menos quando usa IA, provavelmente é um problema de prompt, não de modelo. Se quiser, a gente pode revisar seus prompts mais usados em uma call e encontrar onde dá para ganhar eficiência.
