Janela de contexto: Definição e significado — Wiki de IA

A quantidade máxima de texto (medida em tokens) que um modelo pode processar em uma única conversa. Isso inclui tanto sua entrada quanto a saída do modelo. Se um modelo tem uma janela de contexto de 200K, isso é aproximadamente 150.000 palavras — cerca de dois romances.

Por que isso importa

O tamanho da janela de contexto determina o que você pode fazer. Resumir uma base de código inteira? Precisa de contexto grande. Pergunta-resposta rápida? Pequeno serve. Mas maior nem sempre é melhor — modelos podem perder o foco em contextos muito longos.

Em profundidade

Uma janela de contexto não é armazenamento — é memória de trabalho. Cada token na janela (seu system prompt, o histórico da conversa, quaisquer documentos que você cole e a própria saída do modelo até agora) compete pelo mesmo orçamento de tamanho fixo. Quando as pessoas dizem que o Claude tem uma janela de contexto de 200K ou o Gemini suporta 1M de tokens, esses números incluem tudo: entrada e saída combinadas. Um erro comum é tratar a janela de contexto como um banco de dados que você pode encher de documentos e esperar que o modelo busque perfeitamente. Na realidade, modelos processam contexto através de mecanismos de attention, e attention tem limites tanto computacionais quanto qualitativos.

Perdido no Meio

O problema do "perdido no meio" é real e bem documentado. Pesquisas de Stanford e outros mostraram que quando você coloca informações críticas no meio de um contexto muito longo, os modelos são mensuravelmente piores em usá-las comparado a informações no início ou no final. Isso não é uma preocupação teórica — afeta diretamente como você deve estruturar seus prompts. Se você está alimentando um modelo com 50 páginas de documentação, coloque as seções mais importantes primeiro e por último, não enterradas na página 25. Algumas equipes contornam isso dividindo documentos em pedaços e usando RAG para recuperar apenas as partes relevantes em vez de jogar tudo no contexto.

Maior Mas Não Necessariamente Melhor

Os tamanhos de janela de contexto cresceram dramaticamente. O GPT-3 lançou em 2020 com 4K tokens (aproximadamente 3.000 palavras). Em 2024, o Claude oferecia 200K tokens, e o Gemini 1.5 Pro chegou a 1M de tokens. Os modelos Gemini 2.5 do Google mantêm essa janela de um milhão de tokens. Mas janelas maiores vêm com trade-offs reais. A latência aumenta porque o modelo deve prestar attention em mais tokens. O custo sobe porque a maioria dos provedores de API cobra por token processado. E como mencionado, a qualidade em tarefas de retrieval não escala linearmente com o tamanho do contexto — uma janela de 1M de tokens não é 5x melhor em encontrar uma agulha do que uma janela de 200K.

Gerenciando em Produção

Para desenvolvedores trabalhando com APIs, gerenciamento de contexto é um problema central de engenharia. Conversas longas acumulam tokens rápido. Uma troca de mensagens pode consumir 500–1.000 tokens por interação, o que significa que um modelo de 4K tokens fica sem espaço em poucos turnos. Sistemas em produção lidam com isso usando janelas deslizantes (descartando as mensagens mais antigas), sumarização (comprimindo conversas anteriores em um resumo mais curto) ou abordagens híbridas usando RAG para transferir material de referência para um banco de dados vetorial e puxar apenas pedaços relevantes sob demanda. Acertar isso frequentemente é a diferença entre uma demo que funciona e um produto que escala.

Tokens, Não Palavras

Uma nuance que confunde iniciantes: o limite da janela de contexto é em tokens, não caracteres ou palavras. A tokenização varia por modelo e idioma. Texto em inglês tem em média cerca de 1 token por 4 caracteres, mas código pode ser mais denso (nomes de variáveis e sintaxe consomem tokens rápido), e scripts não-latinos como chinês ou hindi frequentemente usam mais tokens por palavra. O mesmo documento pode consumir 10K tokens em inglês e 15K em japonês. A maioria dos provedores oferece ferramentas de tokenizer ou bibliotecas — a Anthropic tem um contador de tokens nos headers de resposta da API, e a OpenAI publica o tiktoken — para que você possa medir exatamente em vez de adivinhar.

Janela de contexto