Detecção de data drift: compare a distribuição estatística dos inputs atuais com a distribuição dos dados de treinamento. Se as features mudarem significativamente (usando testes como KS test, PSI ou divergência de Jensen-Shannon), o modelo pode estar operando fora da sua distribuição de treinamento. Exemplo: um modelo de credit scoring treinado com candidatos de 25–55 anos começa a receber candidaturas de jovens de 18 anos — uma população que nunca viu.
Concept drift é mais difícil de detectar porque os inputs parecem iguais mas as saídas corretas mudam. Durante a COVID, padrões de compra "normais" mudaram drasticamente — comprar 100 rolos de papel higiênico passou de "provável fraude" para "terça-feira normal". As previsões do modelo ficaram erradas não porque o modelo degradou, mas porque a realidade mudou. Detectar concept drift requer comparar previsões com o ground truth, que frequentemente chega com atraso.
O drift em LLMs se manifesta de forma diferente: padrões de consulta dos usuários mudam (novos tópicos surgem), atualizações do modelo pelo provedor mudam o comportamento (versões do modelo da API mudam silenciosamente), e o mundo muda (dados de treinamento desatualizados). Estratégias de monitoramento incluem: rastrear scores de qualidade de saída ao longo do tempo, detectar mudanças na distribuição de tópicos das consultas, alertar sobre aumentos em problemas reportados por usuários e reavaliar periodicamente em um benchmark fixo para detectar mudanças do lado do provedor.