Los modelos ML en producción no se degradan—sufren choques

Un modelo de detección de fraude cayó del 94% al 75% de recall en una sola semana, sin activar alertas porque las métricas mensuales se mantuvieron dentro de la tolerancia. Cuando los investigadores aplicaron la curva clásica del olvido de Ebbinghaus a 555,000 transacciones fraudulentas en producción, obtuvieron R² = -0.31—peor que predecir la media. Este fallo matemático expone una falla fundamental en cómo toda la industria MLOps aborda el reentrenamiento de modelos.

Cada plataforma MLOps importante construye cronogramas de reentrenamiento alrededor de una degradación suave y predecible tomada de la investigación de memoria del siglo XIX. La suposición: los modelos olvidan gradualmente como los humanos, siguiendo una curva exponencial donde el rendimiento se degrada continuamente a una tasa proporcional a la precisión restante. Pero los sistemas de producción no se comportan como experimentos de psicología. Enfrentan cambios súbitos de distribución, ataques adversariales, y cambios de mercado que crean choques abruptos de rendimiento en lugar de deslizamientos suaves.

La narrativa MLOps más amplia se enfoca fuertemente en el monitoreo y gestión del ciclo de vida, con 67% de los modelos AI que nunca llegan a producción y 91% experimentando degradación de rendimiento con el tiempo. Pero estas estadísticas enmascaran el problema real: estamos tratando síntomas de fallo episódico con soluciones diseñadas para degradación suave. Cuando R² cae por debajo de 0.4, el reentrenamiento programado se vuelve activamente contraproducente—estás optimizando para el modo de fallo equivocado completamente.

Para equipos ejecutando modelos en producción, esta investigación sugiere un diagnóstico práctico: revisa si tus métricas de rendimiento semanales se ajustan a una degradación exponencial. Si R² < 0.4, abandona el reentrenamiento basado en calendario e implementa detección de choques en su lugar. Las matemáticas te están diciendo que tu modelo no está olvidando lentamente—está siendo golpeado por cambios que tus cronogramas no pueden predecir.

Los modelos ML en producción no se degradan—sufren choques

Más noticias