Des chercheurs de l'Universitat Rovira i Virgili en Espagne ont livré CoCoGraph, un modèle de diffusion discrète qui génère des molécules chimiquement valides en apprenant comment les vraies molécules se démontent et se réassemblent. Il a produit 8,2 millions de molécules — dont 7,3 millions inexistantes dans PubChem — à 100 % de validité chimique et 96 % de nouveauté. Publié peer-reviewed dans Nature Machine Intelligence. Pour quiconque travaille en découverte de médicaments, science des matériaux, ou chimie difficile, c'est la substance derrière la catégorie « l'IA génère de nouveaux composés » qui mérite un regard attentif.
CoCoGraph est bâti sur la diffusion discrète contrainte : le modèle apprend la structure moléculaire en appliquant réversiblement des opérations de « double edge swapping » qui préservent les exigences de liaison à travers toute la trajectoire de diffusion. Contrairement aux générateurs de molécules non contraints qui peuvent produire des structures chimiquement impossibles — atomes avec mauvaise valence, anneaux aromatiques brisés — et nécessitent ensuite un filtrage, le design contrainte-pendant-diffusion de CoCoGraph maintient chaque état intermédiaire comme molécule valide. Chiffres du papier : 100 % de validité chimique, 99,8-99,9 % d'unicité, 95,7 % de nouveauté contre les données d'entraînement, KL divergence GuacaMol 95,7-96,3 %, et 62 % de taux de réussite sur un test d'experts humains où des chimistes ont dû distinguer molécules générées et vraies (légèrement mieux que le hasard, ce qui veut dire ici que le modèle trompe les experts la plupart du temps). La génération complète a produit 8,2M de molécules, 7,3M non dans PubChem. Auteurs : Roger Guimerà, Manuel Ruiz-Botella, Marta Sales-Pardo, Marta Sales.
La génération moléculaire est une cible ML active depuis une demi-décennie — les premiers travaux utilisaient des réseaux de neurones graphes (JT-VAE, MolGAN), les plus récents sont passés à la diffusion (GeoDiff, DiffSBDD). Le compromis validité-versus-nouveauté a été la question ouverte : plus facile de générer du nouveau-en-apparence si on ne se soucie pas de la réalité chimique, plus facile de générer du chimiquement réel si on reste près des données d'entraînement. L'approche contrainte-pendant-diffusion de CoCoGraph atteint les deux pôles simultanément — 100 % valide ET 95,7 % nouveau — c'est la position que les labos cherchaient. L'implication aval : les pipelines de découverte de médicaments qui filtraient auparavant les molécules proposées par IA via des filtres de validité coûteux peuvent rapprocher cette étape en amont, libérant de la capacité de criblage pour l'évaluation de faisabilité de synthèse et de liaison à la cible. Les labos de science des matériaux travaillant sur réfrigérants, catalyseurs, polymères peuvent appliquer la même forme à leur domaine.
Papier publié dans Nature Machine Intelligence (peer-reviewed, pas preprint). Disponibilité du code/poids non précisée dans le résumé — le DOI est l'endroit pour vérifier. Pour les labos de découverte de médicaments et matériaux faisant tourner de la génération moléculaire interne, ça vaut la peine de comparer à votre pipeline actuel de génération filtrée. Pour l'audience plus large : voici un vrai exemple d'IA faisant de la recherche en chimie qui n'est pas une démo de communiqué de presse, avec peer review et méthodologie de benchmark explicite derrière. Les 7,3M de molécules nouvelles ne sont pas encore des candidats médicaments — c'est un espace dans lequel chercher — mais chercher dans un espace de 7,3M de molécules chimiquement valides est une accélération mesurable par rapport à ce que la chimie manuelle peut faire.
