Google Research, en collaboration avec le labo Hess de HHMI Janelia, a publié cette semaine des travaux sur MoGen (Neuronal Morphology Generation), un modèle génératif par flow matching qui produit des formes de neurones synthétiques en 3D pour accélérer la connectomique. L'arrière-plan, c'est que cartographier des cerveaux complets à l'échelle du neurone individuel est goulotté par la vérification humaine manuelle requise pour corriger les erreurs des reconstructions par IA. MoGen génère des neurones synthétiques réalistes qui servent de données d'entraînement additionnelles pour le modèle de reconstruction en aval, PATHFINDER. L'intégration des données synthétiques a réduit les erreurs de reconstruction d'environ 4,4 pour cent. À l'échelle d'un cerveau de souris complet, ça se traduit par à peu près 157 ans de travail manuel d'expert épargnés. L'article est accepté à ICLR 2026 pis le modèle a été publié en open source avec des variantes spécifiques aux espèces pour la souris, la mouche à fruit, le poisson-zèbre, pis des fragments de cerveau humain.

MoGen est bâti sur le cadre de flow matching sur nuage de points PointInfinity. Le corpus d'entraînement, c'est 1 795 axones de souris vérifiés issus de reconstructions tissulaires précédemment validées par des humains. La tâche générative est directe : prendre des nuages de points 3D aléatoires pis les transformer progressivement en morphologies neuronales réalistes avec des axones pis des dendrites qui se ramifient. La sortie, c'est de la géométrie, pas du comportement de décharge ou de la connectivité, ce qui est approprié parce que la tâche en aval a besoin de plausibilité de forme plutôt que de précision fonctionnelle. La réduction d'erreur de 4,4 pour cent sur PATHFINDER est un nombre absolu modeste mais substantiel en pratique, parce que les erreurs de reconstruction en connectomique composent non-linéairement quand t'essaies de tracer le même neurone à travers des milliers de tranches d'images. Une amélioration de 4,4 pour cent par étape produit une bien meilleure reconstruction de neurone complet sur un chemin long, de manière disproportionnée.

La partie généralisable, c'est le patron sous le résultat spécifique. Un corpus relativement petit de données d'expert de haute qualité (1 795 axones) est utilisé pour entraîner un modèle génératif qui produit des données synthétiques réalistes illimitées, qui sont ensuite utilisées pour améliorer un modèle en aval. C'est de l'augmentation par données synthétiques faite correctement. Ça marche ici parce que les régularités structurelles des morphologies neuronales sont apprenables à partir de quelques milliers d'exemples, pis parce que la tâche en aval se soucie de la distribution de formes plutôt que de la précision par exemple précis. Le même patron apparaît dans d'autres domaines d'IA scientifique : des modèles de diffusion de structures protéiques qui génèrent des structures synthétiques pour la prédiction de fonction, des générateurs de conformations moléculaires qui augmentent les pipelines de docking, de la génération d'images de microscopie qui augmente les modèles de segmentation de cellules. Le goulot dans plusieurs problèmes de ML scientifique, c'est pas l'architecture de modèle ; c'est les données d'entraînement étiquetées par des experts, pis la donnée synthétique générative devient une réponse standard.

Pour les constructeurs dans les domaines d'IA scientifique, trois gestes suivent. Premièrement, si ta pipeline a un goulot d'étiquetage par experts, évalue si un modèle génératif de tes données pourrait produire des échantillons d'augmentation plausibles ; l'approche MoGen est un gabarit. Deuxièmement, le flow matching sur nuages de points est un outil pratique pour des données 3D structurées (neurones, molécules, squelettes de protéines, organes, formations géologiques), pis ça vaut la peine d'apprendre le cadre même si ta tâche spécifique est pas de la morphologie 3D. Troisièmement, la sortie open source de MoGen avec des variantes d'espèces est un benchmark public utile si tu veux comparer ta propre approche de génération sur nuage de points. Pour les constructeurs non scientifiques, la leçon transférable, c'est que « petit jeu de données vérifié + augmentation générative », c'est de plus en plus la façon dont les problèmes de données à longue traîne se règlent, ce qui compte chaque fois que tu travailles dans un domaine où les étiquettes d'expert coûtent cher pis où la rareté est la vraie contrainte plutôt que l'architecture.