Pesquisadores em Helmholtz Munich, na Universidade Técnica de Munich e no Stowers Institute for Medical Research publicaram o RegVelo, um framework de deep learning que prevê trajetórias de desenvolvimento e identifica as interações regulatórias que orientam as decisões de destino celular. A validação importa: previsões foram testadas experimentalmente via knockouts CRISPR/Cas9 e Perturb-seq em progressão do ciclo celular, endocrinogênese pancreática, hematopoiese e diferenciação de crista neural de peixe-zebra — e a ferramenta recuperou com sucesso todos os estados celulares terminais conhecidos através dos quatro sistemas. Números concretos dos dados do ciclo celular: precisão cross-boundary 0,864/1,0, consistência de velocidade 0,873, correlação de Spearman 0,683 contra pontuações ground-truth FUCCI. Publicado como preprint bioRxiv, revisão por pares pendente.

O RegVelo combina duas técnicas existentes de análise single-cell e aprende o modelo conjunto end-to-end. A velocidade de RNA (La Manno et al., 2018) infere a direção de desenvolvimento da razão de RNAm não-splicado para splicado em dados scRNA-seq — transcritos mudando rapidamente indicam para onde uma célula está se movendo no espaço de estados. A inferência de rede regulatória de genes identifica quem regula quem em cascatas de fatores de transcrição. Ambos são úteis sozinhos mas produzem previsões diferentes e às vezes contraditórias. A contribuição do RegVelo é uma rede neural que codifica dados scRNA-seq, corre através de um decodificador produzindo tempo latente específico célula-gene, e infere conjuntamente velocidade e rede regulatória em uma passagem. A saída: para qualquer célula, prevê o próximo estado, os genes orientando a transição, e o que acontece quando você perturba um regulador específico. A validação Perturb-seq é o padrão-ouro — realmente nocautear o regulador previsto com CRISPR, medir o resultado, e comparar contra a previsão pré-experimento do RegVelo. Primeiro autor Weixu Wang, co-autores seniores Fabian J. Theis (Helmholtz Munich) e Tatjana Sauka-Spengler (Stowers Institute, TU Munich). O laboratório de Theis tem sido um dos grupos líderes em ML single-cell por uma década — scVI em 2018, scvi-tools como padrão do campo desde então — então o resultado não é um caso isolado.

O campo de ML-single-cell tem construído rumo a essa integração exata por aproximadamente cinco anos. scVI (laboratório Theis, 2018) foi o primeiro modelo grande de deep learning para correção de batch scRNA-seq. cellxgene e o Human Cell Atlas construíram a infraestrutura de dados. A velocidade de RNA chegou como trilha separada em 2018. As redes regulatórias de genes foram inferidas com métodos menos profundos (GENIE3, ARACNe). O RegVelo é a síntese: um modelo, aprendido end-to-end, com previsões validadas experimentalmente através de quatro sistemas celulares. O padrão importa porque a previsão de destino celular é a questão a montante para a maior parte da medicina regenerativa, descoberta de fármacos e biologia do desenvolvimento — saber qual gene perturbar para empurrar uma célula de um destino para outro é o que efetivamente se constrói como terapia a jusante. CoCoGraph (#814) e FINGERS-7B (#808) são companheiros no mesmo fio amplo: a biologia se tornando tratável por IA não apenas no nível molecular (CoCoGraph) ou de diagnóstico (FINGERS-7B) mas no nível de decisão-destino-celular (RegVelo). A colaboração Theis-lab/Stowers/TU Munich importa porque não é um produto de vendor — é a comunidade acadêmica de ML single-cell entregando sua melhor inferência conjunta atual.

Preprint bioRxiv, revisão por pares pendente. Código/open-source não especificado no anúncio — o laboratório Theis geralmente entrega open source (scvi-tools é amplamente usado), então esperar um lançamento se a revisão por pares completar limpamente. Para biólogos em exercício: a validação CRISPR/Perturb-seq através de quatro sistemas de teste é o sinal forte — as previsões do RegVelo se mantiveram contra o padrão-ouro experimental, não apenas contra sets de teste in-silico segregados. Para construtores observando bio-ML: o padrão de inferência conjunta (combinar técnicas estabelecidas end-to-end via um backbone de deep learning em vez de rodá-las separadamente e costurar as saídas) é a lição arquitetônica, e será copiado através de outras modalidades single-cell. Para a audiência mais ampla: isso é o que "IA para biologia" parece quando é sério — laboratórios institucionais específicos, técnicas nomeadas sendo unificadas, validação experimental contra padrões-ouro estabelecidos, sem alegações ofegantes sobre curar doenças, apenas melhorias mensuráveis no problema de previsão a montante que torna possíveis as terapias a jusante.