Google 的 MoGen 合成神經元把腦圖譜重建的錯誤率壓低了 4.4%，省下專家 157 年的工

Google Research 聯合 HHMI Janelia 的 Hess 實驗室本週發布了 MoGen（Neuronal Morphology Generation）的工作，一個基於 flow matching 的生成模型，用來產出 3D 合成神經元形態以加速連結組學。背景是這樣的：把一整個大腦在單個神經元尺度上描繪出來，這件事之所以慢，是因為需要人工去校核 AI 重建出來的神經元，把錯漏改回來，這個手工步驟才是真正的瓶頸。MoGen 生成逼真的合成神經元，作為下游重建模型 PATHFINDER 的額外訓練資料。把合成資料混進來之後，重建錯誤率下降了大約 4.4%。放到一整個小鼠腦的尺度上，這大約等於省下了 157 年的專家手工活。論文被 ICLR 2026 接收了，模型也已經開源，帶有針對小鼠、果蠅、斑馬魚以及人腦片段的物種專用變體。

MoGen 建立在 PointInfinity 這套點雲 flow matching 框架之上。訓練語料是 1795 條已經人工校驗過的小鼠軸突，來自更早時期由人工檢查過的組織重建。生成任務本身很直接：給它一朵隨機 3D 點雲，讓模型一步步把它變成一個逼真的神經元形態，帶有分叉的軸突與樹突。它的輸出是幾何形態，不是放電行為，也不是連接性，這種選擇是合理的，因為下游任務要的是「形態分布得像真的」，不是「每一個樣本在功能上都完全正確」。PATHFINDER 上 4.4% 的錯誤率下降看上去是個不大的絕對數字，但在實務裡很重，因為連結組學裡的重建誤差，在你追一根神經元跨越上千層影像的過程中，會以非線性的方式累積起來。每一步上 4.4% 的改善，在一條長路徑上最終會帶來遠不只 4.4% 的整根神經元重建品質提升。

可推廣的那一塊，是這個具體結果底下的模式。用一份相對小量、但高品質的專家標註（1795 條軸突）去訓練一個生成模型，讓它產出無限多的逼真合成資料，再把這些合成資料拿去餵下游模型提升表現。這就是「做對了的合成資料增強」。之所以在這裡能成立，是因為神經元形態的結構性規律，用幾千個樣本就能學到，並且下游任務關心的是「形態的分布」而不是「每個樣本的精確匹配」。同樣的模式也在其他科學 AI 領域冒出來：蛋白質結構的擴散模型生成合成結構用於功能預測、分子構形生成器增強 docking 流水線、顯微影像生成增強細胞分割模型。很多科學 ML 問題真正的瓶頸不是模型架構，而是專家標註過的訓練資料；而「用生成模型做合成資料」正在變成一個標準答案。

給做科學 AI 的打造者三個具體動作。第一，如果你的流水線卡在「專家標註不夠用」這一步，認真評估一下：能不能針對你的資料訓一個生成模型，造出合理的增強樣本？MoGen 的路子就是個可抄的樣板。第二，點雲上的 flow matching 是一類很實用的工具，可以用在各種 3D 結構化資料上（神經元、分子、蛋白質骨架、器官、地質結構），就算你要做的具體任務不是 3D 形態，這套框架也值得學一下。第三，MoGen 開源時帶上了物種變體，這本身就是一個很有用的公開 baseline，可以拿來和你自己的點雲生成方法做比較。對非科學方向的打造者，可以搬走的那一條是：「小而可靠的已標資料 + 生成式資料增強」正在越來越多地成為長尾資料問題的解；只要你做的領域裡專家標註貴、稀缺是真正的瓶頸，而不是架構問題，這條路子就越來越值得考慮。

Google 的 MoGen 合成神經元把腦圖譜重建的錯誤率壓低了 4.4%，省下專家 157 年的工

更多新聞