Google Research 联合 HHMI Janelia 的 Hess 实验室本周发布了 MoGen(Neuronal Morphology Generation)的工作,这是一个基于 flow matching 的生成模型,用来产出 3D 合成神经元形态以加速连接组学。背景是这样的:把一整个大脑在单个神经元尺度上描绘出来,这件事之所以慢,是因为需要人工去校核 AI 重建出来的神经元,把错漏改回来,这个手工步骤才是真正的瓶颈。MoGen 生成逼真的合成神经元,作为下游重建模型 PATHFINDER 的额外训练数据。把合成数据混进来之后,重建错误率下降了大约 4.4%。放到一整个小鼠脑的尺度上,这大约等于省下了 157 年的专家手工活。论文被 ICLR 2026 接收了,模型也已经开源,带有针对小鼠、果蝇、斑马鱼以及人脑片段的物种专用变体。
MoGen 建立在 PointInfinity 这套点云 flow matching 框架之上。训练语料是 1795 条已经人工校验过的小鼠轴突,来自更早时期由人工检查过的组织重建。生成任务本身很直接:给它一朵随机 3D 点云,让模型一步步把它变成一个逼真的神经元形态,带有分叉的轴突与树突。它的输出是几何形态,不是放电行为,也不是连接性。这种选择是合理的,因为下游任务要的是"形态分布得像真的",不是"每一个样本在功能上都完全正确"。PATHFINDER 上 4.4% 的错误率下降看上去是个不大的绝对数字,但在实践里很重,因为连接组学里的重建误差在你追一根神经元跨越上千层图像的过程中,会以非线性的方式累积起来。每一步上 4.4% 的改善,在一条长路径上最终会带来远不止 4.4% 的整根神经元重建质量提升。
可推广的那一块,是这个具体结果底下的模式。用一份相对小量、但高质量的专家标注(1795 条轴突)去训练一个生成模型,让它产出无限多的逼真合成数据,再把这些合成数据拿去喂下游模型提升表现。这就是"做对了的合成数据增强"。之所以在这里能成立,是因为神经元形态的结构性规律,用几千个样本就能学到,并且下游任务关心的是"形态的分布"而不是"每个样本的精确匹配"。同样的模式也在其他科学 AI 领域冒出来:蛋白质结构的扩散模型生成合成结构用于功能预测、分子构象生成器增强 docking 流水线、显微图像生成增强细胞分割模型。很多科学 ML 问题真正的瓶颈不是模型架构,而是专家标注过的训练数据;而"用生成模型做合成数据"正在变成一个标准答案。
给做科学 AI 的构建者三个具体动作。第一,如果你的流水线上卡在"专家标注不够用"这一步,认真评估一下:能不能针对你的数据训一个生成模型,造出合理的增强样本?MoGen 的路子就是个可抄的模板。第二,点云上的 flow matching 是一类很实用的工具,可以用在各种 3D 结构化数据上(神经元、分子、蛋白质骨架、器官、地质结构),就算你要做的具体任务不是 3D 形态,这套框架也值得学一下。第三,MoGen 开源带上了物种变体,这本身就是一个很有用的公开 baseline,可以拿来和你自己的点云生成方法做对比。对非科学方向的构建者,可以搬走的那一条是:"小而可靠的已标数据 + 生成式数据增强"正在越来越多地成为长尾数据问题的解;只要你做的领域里专家标注贵、稀缺是真正的瓶颈(而不是架构),这条路子就越来越值得考虑。
