Pesquisadores da Universitat Rovira i Virgili na Espanha entregaram o CoCoGraph, um modelo de difusão discreta que gera moléculas quimicamente válidas aprendendo como moléculas reais se desmontam e remontam. Produziu 8,2 milhões de moléculas — 7,3 milhões não existentes no PubChem — com 100% de validade química e 96% de novidade. Publicado peer-reviewed na Nature Machine Intelligence. Para quem trabalha em descoberta de fármacos, ciência de materiais ou química dura, essa é a substância por trás da categoria de manchete "IA gera novos compostos" que vale a pena olhar de perto.

O CoCoGraph é construído sobre difusão discreta restringida: o modelo aprende estrutura molecular aplicando reversivelmente operações de "troca de arestas duplas" que preservam requisitos de ligação por toda a trajetória de difusão. Diferente de geradores moleculares não-restringidos que podem produzir estruturas quimicamente impossíveis — átomos com valência errada, anéis aromáticos quebrados — e depois precisam de filtragem, o design restrição-durante-difusão do CoCoGraph mantém cada estado intermediário como molécula válida. Números do paper: 100% validade química, 99,8-99,9% unicidade, 95,7% novidade contra dados de treinamento, divergência KL GuacaMol 95,7-96,3%, e 62% de taxa de sucesso em teste de especialistas humanos onde químicos tiveram que distinguir moléculas geradas de reais (levemente melhor que o acaso, o que aqui significa que o modelo engana especialistas a maior parte do tempo). A geração completa produziu 8,2M moléculas, 7,3M não no PubChem. Autores: Roger Guimerà, Manuel Ruiz-Botella, Marta Sales-Pardo, Marta Sales.

A geração de moléculas tem sido um alvo de ML ativo por meia década — trabalho anterior usava redes neurais de grafos (JT-VAE, MolGAN), trabalho mais recente passou para difusão (GeoDiff, DiffSBDD). O trade-off validade-versus-novidade tem sido a questão aberta: mais fácil gerar coisas que parecem novas se você não se importa com realidade química, mais fácil gerar moléculas quimicamente reais se você fica perto dos dados de treinamento. A abordagem restrição-durante-difusão do CoCoGraph atinge ambos os polos simultaneamente — 100% válido E 95,7% novo — que é a posição que os labs têm perseguido. A implicação a jusante: pipelines de descoberta de fármacos que antes filtravam moléculas propostas por IA através de filtros de validade caros podem adiantar esse passo, liberando capacidade de triagem para avaliação de viabilidade de síntese e ligação ao alvo. Labs de ciência de materiais trabalhando em refrigerantes, catalisadores, polímeros podem aplicar a mesma forma ao seu domínio.

Paper publicado na Nature Machine Intelligence (peer-reviewed, não preprint). Disponibilidade de código/pesos não declarada no resumo — o DOI é onde confirmar. Para labs de descoberta de fármacos e materiais rodando geração molecular interna, vale a pena comparar contra seu pipeline atual de geração filtrada. Para a audiência mais ampla: este é um exemplo real de IA fazendo pesquisa química que não é uma demo de comunicado de imprensa, com peer review e metodologia de benchmark explícita por trás. Os 7,3M de moléculas novas não são candidatos a fármacos ainda — são um espaço dentro do qual buscar — mas buscar em um espaço quimicamente válido de 7,3M moléculas é uma aceleração mensurável sobre o que a química manual pode fazer.