Detecção de Drift: Definição e significado — Wiki de IA

Monitorar mudanças na distribuição dos dados ou no comportamento do modelo ao longo do tempo que poderiam degradar o desempenho. Data drift: os dados de entrada mudam (demografias de clientes mudam, novas categorias de produtos aparecem). Concept drift: a relação entre entradas e saídas corretas muda (o que constitui spam evolui). Model drift: as previsões do modelo gradualmente se tornam menos precisas mesmo que o modelo em si não tenha mudado.

Por que isso importa

Modelos são treinados com dados históricos, mas o mundo continua mudando. Um modelo de detecção de fraude treinado em 2024 vai perder os novos padrões de fraude de 2025. Um sistema de recomendação treinado com comportamento pré-pandemia vai fazer sugestões ruins pós-pandemia. A detecção de drift detecta essas degradações antes que se tornem custosas — alertando que o modelo precisa de retreinamento ou atualização.

Em profundidade

Detecção de data drift: compare a distribuição estatística dos inputs atuais com a distribuição dos dados de treinamento. Se as features mudarem significativamente (usando testes como KS test, PSI ou divergência de Jensen-Shannon), o modelo pode estar operando fora da sua distribuição de treinamento. Exemplo: um modelo de credit scoring treinado com candidatos de 25–55 anos começa a receber candidaturas de jovens de 18 anos — uma população que nunca viu.

Concept Drift

Concept drift é mais difícil de detectar porque os inputs parecem iguais mas as saídas corretas mudam. Durante a COVID, padrões de compra "normais" mudaram drasticamente — comprar 100 rolos de papel higiênico passou de "provável fraude" para "terça-feira normal". As previsões do modelo ficaram erradas não porque o modelo degradou, mas porque a realidade mudou. Detectar concept drift requer comparar previsões com o ground truth, que frequentemente chega com atraso.

Para LLMs

O drift em LLMs se manifesta de forma diferente: padrões de consulta dos usuários mudam (novos tópicos surgem), atualizações do modelo pelo provedor mudam o comportamento (versões do modelo da API mudam silenciosamente), e o mundo muda (dados de treinamento desatualizados). Estratégias de monitoramento incluem: rastrear scores de qualidade de saída ao longo do tempo, detectar mudanças na distribuição de tópicos das consultas, alertar sobre aumentos em problemas reportados por usuários e reavaliar periodicamente em um benchmark fixo para detectar mudanças do lado do provedor.