Des chercheurs de Helmholtz Munich, l'Université Technique de Munich et l'Institut Stowers pour la Recherche Médicale ont publié RegVelo, un cadre deep learning qui prédit les trajectoires de développement et identifie les interactions régulatrices guidant les décisions de destin cellulaire. La validation compte : les prédictions ont été testées expérimentalement via knockouts CRISPR/Cas9 et Perturb-seq sur la progression du cycle cellulaire, l'endocrinogénèse pancréatique, l'hématopoïèse et la différenciation de la crête neurale du poisson zèbre — et l'outil a récupéré avec succès tous les états cellulaires terminaux connus à travers les quatre systèmes. Chiffres concrets des données cycle cellulaire : exactitude cross-boundary 0,864/1,0, cohérence de vélocité 0,873, corrélation Spearman 0,683 contre les scores ground-truth FUCCI. Publié comme préprint bioRxiv, revue par les pairs en attente.

RegVelo combine deux techniques d'analyse single-cell existantes et apprend le modèle joint end-to-end. La vélocité ARN (La Manno et al., 2018) infère la direction de développement à partir du ratio d'ARNm non-épissé sur épissé dans les données scRNA-seq — les transcrits changeant rapidement indiquent dans quelle direction une cellule bouge dans l'espace d'états. L'inférence de réseau régulateur de gènes identifie qui régule qui dans les cascades de facteurs de transcription. Les deux sont utiles seules mais produisent des prédictions différentes et parfois contradictoires. La contribution de RegVelo est un réseau de neurones qui encode les données scRNA-seq, passe par un décodeur produisant un temps latent spécifique cellule-gène, et infère conjointement vélocité et réseau régulateur en une seule passe. La sortie : pour n'importe quelle cellule, prédire le prochain état, les gènes guidant la transition, et ce qui se passe quand on perturbe un régulateur spécifique. La validation Perturb-seq est l'étalon-or — knockouter réellement le régulateur prédit avec CRISPR, mesurer le résultat, et comparer contre la prédiction pré-expérience de RegVelo. Premier auteur Weixu Wang, co-auteurs seniors Fabian J. Theis (Helmholtz Munich) et Tatjana Sauka-Spengler (Stowers Institute, TU Munich). Le labo de Theis a été l'un des principaux groupes ML single-cell pendant une décennie — scVI en 2018, scvi-tools comme standard du champ depuis — donc le résultat n'est pas un cas isolé.

Le champ ML-single-cell construit vers cette intégration exacte depuis environ cinq ans. scVI (labo Theis, 2018) a été le premier grand modèle deep learning pour la correction de batch scRNA-seq. cellxgene et le Human Cell Atlas ont bâti l'infrastructure de données. La vélocité ARN est arrivée comme piste séparée en 2018. Les réseaux régulateurs de gènes ont été inférés avec des méthodes moins profondes (GENIE3, ARACNe). RegVelo est la synthèse : un modèle, appris end-to-end, avec prédictions validées expérimentalement à travers quatre systèmes cellulaires. Le pattern compte parce que la prédiction de destin cellulaire est la question amont pour la plupart de la médecine régénérative, la découverte de médicaments et la biologie du développement — savoir quel gène perturber pour pousser une cellule d'un destin à un autre est ce qui est réellement constructible comme thérapie en aval. CoCoGraph (#814) et FINGERS-7B (#808) sont des compagnons dans le même fil large : la biologie devenant AI-tractable pas juste au niveau moléculaire (CoCoGraph) ou diagnostique (FINGERS-7B) mais au niveau décision-destin-cellulaire (RegVelo). La collaboration Theis-lab/Stowers/TU Munich compte parce que ce n'est pas un produit vendor — c'est la communauté ML single-cell académique livrant sa meilleure inférence jointe actuelle.

Préprint bioRxiv, revue par les pairs en attente. Code/open-source non spécifié dans l'annonce — le labo Theis livre habituellement de l'open source (scvi-tools est largement utilisé), donc s'attendre à une release si la revue par les pairs se complète proprement. Pour les biologistes en exercice : la validation CRISPR/Perturb-seq à travers quatre systèmes test est le fort signal — les prédictions de RegVelo ont tenu contre l'étalon-or expérimental, pas juste contre des sets de test in-silico tenus de côté. Pour les constructeurs qui regardent bio-ML : le pattern d'inférence jointe (combiner les techniques établies end-to-end via une backbone deep learning plutôt que les faire tourner séparément et coudre les sorties) est la leçon architecturale, et ça sera copié à travers d'autres modalités single-cell. Pour l'audience plus large : voici à quoi ressemble « l'IA pour la biologie » quand c'est sérieux — labos institutionnels spécifiques, techniques nommées étant unifiées, validation expérimentale contre étalons-or établis, pas de revendications haletantes sur la guérison de maladies, juste des améliorations mesurables sur le problème de prédiction amont qui rend possibles les thérapies aval.