Um modelo de detecção de fraude caiu de 94% para 75% de recall em uma única semana, sem disparar alertas porque as métricas mensais permaneceram dentro da tolerância. Quando pesquisadores aplicaram a curva clássica do esquecimento de Ebbinghaus a 555.000 transações fraudulentas em produção, obtiveram R² = -0,31—pior que prever a média. Esta falha matemática expõe uma falha fundamental em como toda a indústria MLOps aborda o retreinamento de modelos.
Cada plataforma MLOps importante constrói cronogramas de retreinamento em torno de degradação suave e previsível emprestada da pesquisa de memória do século XIX. A suposição: modelos esquecem gradualmente como humanos, seguindo uma curva exponencial onde performance degrada continuamente numa taxa proporcional à precisão restante. Mas sistemas de produção não se comportam como experimentos de psicologia. Eles enfrentam mudanças súbitas de distribuição, ataques adversários, e mudanças de mercado que criam choques abruptos de performance ao invés de quedas suaves.
A narrativa MLOps mais ampla foca pesadamente em monitoramento e gestão do ciclo de vida, com 67% dos modelos AI nunca chegando à produção e 91% experimentando degradação de performance ao longo do tempo. Mas essas estatísticas mascaram o problema real: estamos tratando sintomas de falha episódica com soluções projetadas para degradação suave. Quando R² cai abaixo de 0,4, retreinamento agendado se torna ativamente contraproducente—você está otimizando para o modo de falha errado inteiramente.
Para equipes rodando modelos em produção, esta pesquisa sugere um diagnóstico prático: verifique se suas métricas de performance semanais se ajustam a uma degradação exponencial. Se R² < 0,4, abandone retreinamento baseado em calendário e implemente detecção de choques ao invés. A matemática está te dizendo que seu modelo não está esquecendo lentamente—está sendo surpreendido por mudanças que seus cronogramas não conseguem prever.
