Flow matching entrena un campo de velocidad a lo largo de caminos rectos entre ruido y datos. La difusión usa caminos curvados que requieren 20–50 pasos para recorrer; flow matching usa caminos más rectos que pueden recorrerse en 4–10 pasos con calidad comparable.
Tanto la difusión como flow matching son modelos generativos de tiempo continuo con diferentes caminos de probabilidad. La difusión sigue un proceso estocástico (ruido browniano); flow matching sigue un flujo determinístico (interpolación lineal). Esta unificación teórica permite transferir insights entre ambos paradigmas y entender cuándo cada uno es preferible.
La reducción de pasos se traduce directamente en reducción de costo y latencia. Si puedes generar una imagen en 4 pasos en lugar de 50, el costo de GPU cae proporcionalmente. Esto hace factible la generación de imágenes y video en tiempo real, lo que abre aplicaciones interactivas que antes eran prohibitivamente caras. Flux, SD3 y modelos de video recientes demuestran que la calidad no se sacrifica.