Investigadores de la Universitat Rovira i Virgili en España lanzaron CoCoGraph, un modelo de difusión discreta que genera moléculas químicamente válidas aprendiendo cómo las moléculas reales se descomponen y reensamblan. Produjo 8,2 millones de moléculas — 7,3 millones no existentes en PubChem — al 100% de validez química y 96% de novedad. Publicado peer-reviewed en Nature Machine Intelligence. Para quien trabaje en descubrimiento de fármacos, ciencia de materiales o química dura, esta es la sustancia detrás de la categoría de titulares "IA genera nuevos compuestos" que vale la pena mirar de cerca.
CoCoGraph está construido sobre difusión discreta restringida: el modelo aprende estructura molecular aplicando reversiblemente operaciones de "intercambio de aristas dobles" que preservan los requisitos de enlace durante toda la trayectoria de difusión. A diferencia de generadores moleculares no restringidos que pueden producir estructuras químicamente imposibles — átomos con valencia incorrecta, anillos aromáticos rotos — y luego necesitan filtrado, el diseño restricción-durante-difusión de CoCoGraph mantiene cada estado intermedio como molécula válida. Cifras del paper: 100% validez química, 99,8-99,9% unicidad, 95,7% novedad contra datos de entrenamiento, divergencia KL GuacaMol 95,7-96,3%, y 62% de tasa de éxito en una prueba de expertos humanos donde químicos tuvieron que distinguir moléculas generadas de reales (ligeramente mejor que el azar, lo que aquí significa que el modelo engaña a expertos la mayoría del tiempo). La generación completa produjo 8,2M moléculas, 7,3M no en PubChem. Autores: Roger Guimerà, Manuel Ruiz-Botella, Marta Sales-Pardo, Marta Sales.
La generación de moléculas ha sido un objetivo ML activo durante media década — el trabajo temprano usaba redes neuronales de grafos (JT-VAE, MolGAN), el más reciente pasó a difusión (GeoDiff, DiffSBDD). El compromiso validez-versus-novedad ha sido la pregunta abierta: más fácil generar cosas que parecen novedosas si no te importa la realidad química, más fácil generar moléculas químicamente reales si te quedas cerca de los datos de entrenamiento. El enfoque restricción-durante-difusión de CoCoGraph alcanza ambos polos simultáneamente — 100% válido Y 95,7% novedoso — que es la posición que los labs han estado persiguiendo. La implicación aguas abajo: los pipelines de descubrimiento de fármacos que antes filtraban moléculas propuestas por IA mediante filtros de validez costosos pueden adelantar ese paso, liberando capacidad de cribado para evaluación de viabilidad de síntesis y unión al objetivo. Los labs de ciencia de materiales trabajando en refrigerantes, catalizadores, polímeros pueden aplicar la misma forma a su dominio.
Paper publicado en Nature Machine Intelligence (peer-reviewed, no preprint). Disponibilidad de código/pesos no establecida en el resumen — el DOI es donde confirmar. Para labs de descubrimiento de fármacos y materiales que ejecutan generación molecular interna, vale la pena comparar contra tu pipeline actual de generación filtrada. Para la audiencia más amplia: este es un ejemplo real de IA haciendo investigación química que no es una demo de comunicado de prensa, con peer review y metodología de benchmark explícita detrás. Los 7,3M de moléculas novedosas no son candidatos a fármacos todavía — son un espacio dentro del cual buscar — pero buscar en un espacio químicamente válido de 7,3M de moléculas es una aceleración medible sobre lo que la química manual puede hacer.
