स्पेन के Universitat Rovira i Virgili के researchers ने CoCoGraph ship किया, यह एक discrete diffusion model है जो असली molecules कैसे टूटते और फिर से बनते हैं इसे सीखकर chemically valid molecules generate करता है। इसने 82 लाख molecules produce किए — जिनमें से 73 लाख PubChem में मौजूद नहीं हैं — 100% chemical validity और 96% novelty पर। Nature Machine Intelligence में peer-reviewed publish हुआ। Drug discovery, materials science, या hard chemistry में काम करने वालों के लिए, यह "AI नए compounds generate करता है" headline category के पीछे की substance है जिसे करीब से देखना worth है।
CoCoGraph constrained discrete diffusion पर बना है: model molecule structure को "double edge swapping" operations को reversibly apply करके सीखता है जो पूरी diffusion trajectory में bonding requirements preserve करते हैं। Unconstrained molecule generators के विपरीत जो chemically impossible structures (गलत valence वाले atoms, टूटे aromatic rings) produce कर सकते हैं और फिर filtering की जरूरत होती है, CoCoGraph का constraint-during-diffusion design हर intermediate state को valid molecule रखता है। Paper से numbers: 100% chemical validity, 99.8-99.9% uniqueness, training data के विरुद्ध 95.7% novelty, GuacaMol KL divergence 95.7-96.3%, और एक human-expert test पर 62% success rate जहाँ chemists को generated molecules को असली से distinguish करना था (chance से थोड़ा बेहतर, मतलब यहाँ model अधिकांश समय experts को धोखा देता है)। पूरे generation run ने 8.2M molecules produce किए, 7.3M PubChem में नहीं। Authors: Roger Guimerà, Manuel Ruiz-Botella, Marta Sales-Pardo, Marta Sales।
Molecule generation आधी दशाब्दी से active ML target रहा है — पुराने काम ने graph neural networks (JT-VAE, MolGAN) use किए, हाल का काम diffusion (GeoDiff, DiffSBDD) पर move हुआ। Validity-versus-novelty trade-off open question रहा है: chemically real की परवाह न करें तो नए दिखने वाली चीजें generate करना आसान, training data के पास रहें तो chemically real molecules generate करना आसान। CoCoGraph का constraint-during-diffusion approach दोनों poles को simultaneously hit करता है — 100% valid और 95.7% novel — यही position labs chase कर रहे थे। Downstream implication: drug-discovery pipelines जो पहले AI-proposed molecules को महंगे validity filters के माध्यम से gate करते थे, उस filter step को पहले pull कर सकते हैं, synthesis-feasibility और target-binding evaluation के लिए screening capacity मुक्त करते हुए। Refrigerants, catalysts, polymers पर काम कर रही materials science labs अपने domain में same shape apply कर सकती हैं।
Paper Nature Machine Intelligence में publish (peer-reviewed, preprint नहीं)। Code/weights availability summary में नहीं बताई — DOI confirm करने की जगह है। Internal molecule generation चला रही drug discovery और materials labs के लिए, अपने current filtered-generation pipeline के against compare करना worth है। व्यापक audience के लिए: यह AI chemistry research करने का असली example है जो press-release demo नहीं है, peer review और explicit benchmark methodology के साथ। 7.3M novel molecules अभी drug candidates नहीं हैं — वे search करने का space हैं — लेकिन 7.3M molecules के chemically valid space में search करना manual chemistry जो कर सकती है उससे एक measurable acceleration है।
