Investigadores de UC San Diego y Together AI han resuelto un problema de larga data con los modelos de lenguaje en bucle — arquitecturas que ejecutan los mismos bloques transformer múltiples veces para aumentar el cómputo sin agregar parámetros. Su nuevo modelo, Parcae, logra una perplejidad de validación 6.3% menor que enfoques en bucle anteriores e iguala un transformer de 1.3B parámetros usando solo 770M parámetros. El avance radica en tratar la arquitectura en bucle como un sistema dinámico y aplicar teoría de control para prevenir la "explosión de estado residual" que hacía casi imposible entrenar modelos en bucle anteriores.
Esto importa porque el enfoque de escalado predeterminado de la industria — más parámetros, más datos, más cómputo — golpea muros rápidamente al desplegar modelos en dispositivos edge o manejar costos de inferencia. Las arquitecturas en bucle ofrecen un intercambio diferente: misma huella de memoria, más computación por pase hacia adelante. Pero intentos previos como Recurrent Depth Models sufrían de inestabilidad de entrenamiento y picos de pérdida que requerían cuidado extremo de hiperparámetros. El diseño middle-looped de Parcae con restricciones de norma espectral hace estos modelos realmente entrenables a escala.
La investigación establece las primeras leyes de escalado para modelos en bucle, mostrando que el entrenamiento óptimo en cómputo requiere aumentar tanto el conteo de bucles como los datos juntos — no solo subir los bucles. El equipo probó su enfoque en múltiples escalas y consistentemente superó transformers de profundidad fija con presupuestos de parámetros idénticos. Aunque el paper se enfoca en perplejidad de modelado de lenguaje, la prueba real será el rendimiento de tareas downstream y si estas ganancias de eficiencia se mantienen en despliegues de producción.
Para desarrolladores construyendo aplicaciones con restricciones de memoria, esto abre una alternativa genuina al paradigma de escalado "más grande es mejor". En lugar de elegir entre calidad de modelo y restricciones de despliegue, Parcae sugiere que puedes tener ambos — si estás dispuesto a intercambiar eficiencia de memoria por mayor cómputo durante inferencia.
