西班牙 Universitat Rovira i Virgili 的研究人员发布了 CoCoGraph,这是一种离散扩散模型,通过学习真实分子如何分解和重组来生成化学上有效的分子。它产生了 820 万个分子 —— 其中 730 万在 PubChem 中不存在 —— 化学有效性为 100%,新颖性为 96%。在 Nature Machine Intelligence 上同行评审发表。对于在药物发现、材料科学或硬化学领域工作的任何人来说,这是"AI 生成新化合物"标题类别背后值得仔细观察的实质。

CoCoGraph 建立在受约束的离散扩散之上:模型通过可逆地应用"双边交换"操作来学习分子结构,这些操作在整个扩散轨迹中保留键合要求。不像无约束的分子生成器可能产生化学上不可能的结构 —— 价数错误的原子、断开的芳香环 —— 然后需要事后过滤,CoCoGraph 的约束-在-扩散-期间设计使每个中间状态都保持有效分子。论文中的数字:100% 化学有效性,99.8-99.9% 唯一性,相对于训练数据 95.7% 新颖性,GuacaMol KL 散度 95.7-96.3%,以及在化学家被要求区分生成分子和真实分子的人类专家测试中 62% 的成功率(略高于随机,这里意味着模型大部分时间欺骗了专家)。完整生成产生了 820 万个分子,730 万不在 PubChem 中。作者:Roger Guimerà、Manuel Ruiz-Botella、Marta Sales-Pardo、Marta Sales。

分子生成已经是一个活跃的 ML 目标半十年 —— 早期工作使用图神经网络(JT-VAE、MolGAN),最近的工作转向扩散(GeoDiff、DiffSBDD)。有效性-与-新颖性的权衡一直是开放问题:如果你不关心化学真实性,更容易生成看起来新颖的东西;如果你接近训练数据,更容易生成化学真实的分子。CoCoGraph 的约束-在-扩散-期间方法同时达到两极 —— 100% 有效且 95.7% 新颖 —— 这是实验室一直追求的位置。下游影响:以前通过昂贵的有效性过滤器筛选 AI 提出的分子的药物发现管道可以将该过滤步骤提前,释放筛选能力用于合成可行性和靶点结合评估。研究制冷剂、催化剂、聚合物的材料科学实验室可以将相同的形式应用于他们的领域。

论文发表在 Nature Machine Intelligence(同行评审,非预印本)。摘要中未说明代码/权重的可用性 —— DOI 是确认的地方。对于运行内部分子生成的药物发现和材料实验室,值得对比你当前的过滤生成管道。对于更广泛的受众:这是 AI 做化学研究的真实例子,不是新闻发布演示,有同行评审和明确的基准方法在背后。730 万新分子还不是药物候选 —— 它们是要在其中搜索的空间 —— 但在化学上有效的 730 万分子空间中搜索,是对手动化学能做的事情的可衡量加速。