Un Tiny Recursion Model (TRM) de 7 millones de parámetros está superando a los principales modelos de razonamiento miles de veces más grandes, incluyendo GPT-4 y Claude, al cambiar fundamentalmente cómo la IA aborda la resolución de problemas. En lugar de la arquitectura feed-forward tradicional que procesa entradas en una sola pasada, TRM usa un pequeño módulo MLP que refina iterativamente su razonamiento, esencialmente intercambiando espacio computacional por tiempo de pensamiento. El modelo logró este avance en problemas novedosos como el benchmark ARC-AGI, donde la memorización de datos de entrenamiento no proporciona ventaja alguna.
Esto desafía la obsesión de una década de la industria con el escalamiento — la creencia de que la inteligencia emerge solo a través de modelos más grandes, más parámetros y entrenamiento a escala de centros de datos. Los modelos de razonamiento actuales como GPT-4 fallan porque son fundamentalmente motores de predicción de tokens que deben comprometerse con su camino de razonamiento inicial, a menudo convirtiendo errores tempranos en alucinaciones confiadas. Sobresalen en adaptar soluciones conocidas pero luchan con razonamiento genuinamente novedoso, exponiendo su dependencia en reconocimiento de patrones en lugar de deducción lógica.
El momento se alinea con impulsos de eficiencia más amplios en toda la industria. El QwQ-32B de Alibaba recientemente demostró que un modelo de 32 mil millones de parámetros puede igualar a competidores de primer nivel mientras requiere 98% menos memoria que el R1 de DeepSeek. Investigadores chinos mostraron que el aprendizaje por refuerzo permite a modelos de tamaño mediano competir con arquitecturas mixture-of-experts masivas. Mientras tanto, compañías como DeepSpeed están construyendo bibliotecas completas de compresión para hacer los modelos grandes más desplegables.
Para los desarrolladores, esto sugiere que la estrategia actual de selección de modelos podría estar al revés. En lugar de elegir por defecto el modelo más grande disponible, el enfoque ganador puede ser modelos más pequeños con capacidades de razonamiento iterativo — especialmente para aplicaciones que requieren resolución genuina de problemas en lugar de reconocimiento de patrones. Esto podría reducir dramáticamente los costos de inferencia mientras mejora la consistencia lógica.
