西班牙 Universitat Rovira i Virgili 的研究人員發布了 CoCoGraph,這是一種離散擴散模型,透過學習真實分子如何分解和重組來生成化學上有效的分子。它產生了 820 萬個分子 —— 其中 730 萬在 PubChem 中不存在 —— 化學有效性為 100%,新穎性為 96%。在 Nature Machine Intelligence 上同行評審發表。對於在藥物發現、材料科學或硬化學領域工作的任何人來說,這是「AI 生成新化合物」標題類別背後值得仔細觀察的實質。

CoCoGraph 建立在受約束的離散擴散之上:模型透過可逆地應用「雙邊交換」操作來學習分子結構,這些操作在整個擴散軌跡中保留鍵合要求。不像無約束的分子生成器可能產生化學上不可能的結構 —— 價數錯誤的原子、斷開的芳香環 —— 然後需要事後過濾,CoCoGraph 的約束-在-擴散-期間設計使每個中間狀態都保持有效分子。論文中的數字:100% 化學有效性,99.8-99.9% 唯一性,相對於訓練資料 95.7% 新穎性,GuacaMol KL 散度 95.7-96.3%,以及在化學家被要求區分生成分子和真實分子的人類專家測試中 62% 的成功率(略高於隨機,這裡意味著模型大部分時間欺騙了專家)。完整生成產生了 820 萬個分子,730 萬不在 PubChem 中。作者:Roger Guimerà、Manuel Ruiz-Botella、Marta Sales-Pardo、Marta Sales。

分子生成已經是一個活躍的 ML 目標半十年 —— 早期工作使用圖神經網路(JT-VAE、MolGAN),最近的工作轉向擴散(GeoDiff、DiffSBDD)。有效性-與-新穎性的權衡一直是開放問題:如果你不關心化學真實性,更容易生成看起來新穎的東西;如果你接近訓練資料,更容易生成化學真實的分子。CoCoGraph 的約束-在-擴散-期間方法同時達到兩極 —— 100% 有效且 95.7% 新穎 —— 這是實驗室一直追求的位置。下游影響:以前透過昂貴的有效性過濾器篩選 AI 提出的分子的藥物發現管道可以將該過濾步驟提前,釋放篩選能力用於合成可行性和靶點結合評估。研究製冷劑、催化劑、聚合物的材料科學實驗室可以將相同的形式應用於他們的領域。

論文發表在 Nature Machine Intelligence(同行評審,非預印本)。摘要中未說明程式碼/權重的可用性 —— DOI 是確認的地方。對於運行內部分子生成的藥物發現和材料實驗室,值得對比你當前的過濾生成管道。對於更廣泛的受眾:這是 AI 做化學研究的真實例子,不是新聞發布演示,有同行評審和明確的基準方法在背後。730 萬新分子還不是藥物候選 —— 它們是要在其中搜索的空間 —— 但在化學上有效的 730 萬分子空間中搜索,是對手動化學能做的事情的可衡量加速。