Zubnet AIAprenderWiki › Corte de Conhecimento
Fundamentos

Corte de Conhecimento

Também conhecido como: Corte de Dados de Treinamento, Data de Conhecimento
A data após a qual um modelo não possui dados de treinamento, significando que ele não tem conhecimento de eventos, descobertas ou mudanças que ocorreram após essa data. Se o corte de um modelo é abril de 2024, ele não sabe nada que aconteceu em maio de 2024 ou depois — novos produtos, eventos noticiosos, artigos científicos ou fatos atualizados.

Por que isso importa

O corte de conhecimento é a fonte mais comum de frustração com assistentes de IA. "Por que ele não sabe sobre X?" Porque X aconteceu após o treinamento. Essa limitação impulsiona a adoção de RAG (dar ao modelo acesso a informações atuais) e uso de ferramentas (permitir que o modelo pesquise na web). Entender o corte ajuda você a saber quando confiar no modelo e quando verificar.

Em profundidade

O corte existe porque dados de treinamento precisam ser coletados, limpos e processados antes do treinamento começar — um processo que leva semanas a meses. Um modelo lançado em 2025 pode ter um corte de dados de treinamento do final de 2024. A lacuna entre o corte e o lançamento representa tempo de processamento. Alguns provedores fazem "atualizações de conhecimento" adicionais através de ajuste fino em dados mais recentes, mas essas são tipicamente restritas (eventos notíciosos, lançamentos de produtos) em vez de abrangentes.

Não É Uma Parede Rígida

O corte não é perfeitamente limpo. Dados de treinamento frequentemente incluem conteúdo publicado em uma faixa de datas, e scrapes da web podem incluir páginas atualizadas em vários momentos. Um modelo pode saber algumas coisas de depois do seu corte "oficial" por causa de coleta de dados sobrepostos. Também pode ter lacunas em conhecimento de antes do corte se certas fontes não foram incluídas. A data de corte é um guia aproximado, não um limite preciso.

Contornando a Limitação

Três abordagens abordam a limitação do corte: RAG (recuperar documentos atuais e incluí-los no prompt), ferramentas de busca web (deixar o modelo buscar informações atuais) e atualizações regulares do modelo (retreinamento ou ajuste fino em dados recentes). Na prática, a maioria das aplicações em produção usa RAG ou uso de ferramentas em vez de confiar apenas no conhecimento interno do modelo, mesmo para informações dentro do período de treinamento, porque o conhecimento paramétrico do modelo pode ser impreciso mesmo para coisas que ele "sabe".

Conceitos relacionados

← Todos os termos
← Corpus Cursor →