A OpenAI lancou o LifeSciBench, um benchmark que tenta medir o quanto a IA realmente ajuda na pesquisa do mundo real em ciencias da vida, e o resultado principal e humilde: o modelo mais forte testado passa em apenas 36,1% das tarefas. Ele se le como uma checagem de realidade deliberada em uma semana cheia de alegacoes sobre a IA se equiparando a medicos e ajudando a descobrir quimica.

Em vez de um questionario de fatos, o LifeSciBench foi construido por 173 cientistas com doutorado da pesquisa em biotecnologia e farmaceutica, que escreveram 750 tarefas abrangendo sete fluxos de pesquisa, desde lidar com evidencias ate executar analises e comunicar resultados. Cada tarefa e avaliada por uma rubrica detalhada, 19.020 criterios no total e cerca de 25 por tarefa, que pontuam as afirmacoes, os calculos, as decisoes e as justificativas especificas que uma boa resposta precisa conter. Quase quatro em cada cinco das tarefas exigem varias etapas de raciocinio ou decisao, de modo que o teste avalia o discernimento, e nao a memorizacao.

Nesse patamar, os modelos tem dificuldade. O proprio modelo especializado da OpenAI, o GPT-Rosalind, liderou o campo, registrando a melhor pontuacao por tarefa em 386 das 750 tarefas e elevando a taxa geral de aprovacao dos 25,7% do GPT-5.5 para 36,1%. Mesmo assim, essa pontuacao maxima significa que o melhor sistema ainda falha em quase dois tercos do que cientistas especialistas considerariam trabalho de pesquisa solido. Um benchmark cujo proprio criador chega no maximo a cerca de um terco e, a sua maneira, uma admissao util sobre onde a tecnologia de fato esta.

O momento e significativo. Esta mesma semana trouxe um modelo que se equiparou a medicos de atencao primaria na gestao de doencas, outro que ajudou a aprimorar uma reacao quimica e uma empresa de imagens anunciando um scanner medico, tudo isso convidando a leitura de que a IA chegou ao laboratorio e a clinica. O LifeSciBench e o contrapeso vindo de dentro da mesma industria: quando voce avalia o trabalho do jeito que os cientistas de fato fazem, em comparacao com o que uma resposta cuidadosa precisa de fato conter, os melhores modelos de hoje superam cerca de um terco dele. A capacidade e real e crescente, mas a distancia que falta ate o nivel de especialista e exatamente a parte que as demonstracoes tendem a deixar de fora.