Google Research 聯合 HHMI Janelia 的 Hess 實驗室本週發布了 MoGen(Neuronal Morphology Generation)的工作,一個基於 flow matching 的生成模型,用來產出 3D 合成神經元形態以加速連結組學。背景是這樣的:把一整個大腦在單個神經元尺度上描繪出來,這件事之所以慢,是因為需要人工去校核 AI 重建出來的神經元,把錯漏改回來,這個手工步驟才是真正的瓶頸。MoGen 生成逼真的合成神經元,作為下游重建模型 PATHFINDER 的額外訓練資料。把合成資料混進來之後,重建錯誤率下降了大約 4.4%。放到一整個小鼠腦的尺度上,這大約等於省下了 157 年的專家手工活。論文被 ICLR 2026 接收了,模型也已經開源,帶有針對小鼠、果蠅、斑馬魚以及人腦片段的物種專用變體。

MoGen 建立在 PointInfinity 這套點雲 flow matching 框架之上。訓練語料是 1795 條已經人工校驗過的小鼠軸突,來自更早時期由人工檢查過的組織重建。生成任務本身很直接:給它一朵隨機 3D 點雲,讓模型一步步把它變成一個逼真的神經元形態,帶有分叉的軸突與樹突。它的輸出是幾何形態,不是放電行為,也不是連接性,這種選擇是合理的,因為下游任務要的是「形態分布得像真的」,不是「每一個樣本在功能上都完全正確」。PATHFINDER 上 4.4% 的錯誤率下降看上去是個不大的絕對數字,但在實務裡很重,因為連結組學裡的重建誤差,在你追一根神經元跨越上千層影像的過程中,會以非線性的方式累積起來。每一步上 4.4% 的改善,在一條長路徑上最終會帶來遠不只 4.4% 的整根神經元重建品質提升。

可推廣的那一塊,是這個具體結果底下的模式。用一份相對小量、但高品質的專家標註(1795 條軸突)去訓練一個生成模型,讓它產出無限多的逼真合成資料,再把這些合成資料拿去餵下游模型提升表現。這就是「做對了的合成資料增強」。之所以在這裡能成立,是因為神經元形態的結構性規律,用幾千個樣本就能學到,並且下游任務關心的是「形態的分布」而不是「每個樣本的精確匹配」。同樣的模式也在其他科學 AI 領域冒出來:蛋白質結構的擴散模型生成合成結構用於功能預測、分子構形生成器增強 docking 流水線、顯微影像生成增強細胞分割模型。很多科學 ML 問題真正的瓶頸不是模型架構,而是專家標註過的訓練資料;而「用生成模型做合成資料」正在變成一個標準答案。

給做科學 AI 的打造者三個具體動作。第一,如果你的流水線卡在「專家標註不夠用」這一步,認真評估一下:能不能針對你的資料訓一個生成模型,造出合理的增強樣本?MoGen 的路子就是個可抄的樣板。第二,點雲上的 flow matching 是一類很實用的工具,可以用在各種 3D 結構化資料上(神經元、分子、蛋白質骨架、器官、地質結構),就算你要做的具體任務不是 3D 形態,這套框架也值得學一下。第三,MoGen 開源時帶上了物種變體,這本身就是一個很有用的公開 baseline,可以拿來和你自己的點雲生成方法做比較。對非科學方向的打造者,可以搬走的那一條是:「小而可靠的已標資料 + 生成式資料增強」正在越來越多地成為長尾資料問題的解;只要你做的領域裡專家標註貴、稀缺是真正的瓶頸,而不是架構問題,這條路子就越來越值得考慮。