Um novo estudo Harvard / Beth Israel publicado na Science mediu o o1 da OpenAI contra médicos attendings em diagnósticos reais de pronto-socorro, e o o1 saiu na frente. Setenta e seis pacientes, dois attendings de comparação, dois mais como painel cego para ground truth. o1 atingiu 67% de accuracy diagnóstica na triagem; os médicos comparados pontuaram 55% e 50%. O modelo recebeu os mesmos dados EMR que os médicos tinham no momento do diagnóstico — não preprocessados, não curados, não vinhetas resumidas por especialistas.
O setup é a parte que importa. A maioria das manchetes "IA vence médicos" rodam sobre vinhetas de caso sintéticas, problemas de board exam, ou casos publicados curados que editores já limparam. Este estudo usou registros reais de admissão do PS de Beth Israel com a mesma informação disponível no momento em que um médico estava olhando para um paciente. Ground truth veio de um painel cego — dois attendings avaliadores que não sabiam quais diagnósticos vinham de médicos humanos e quais de o1. Os autores principais são Arjun Manrai (Harvard Medical School) e Adam Rodman (Beth Israel Deaconess). O modelo testado foi o1, não o3 nem GPT-5 nem Claude Sonnet 4.5; o resultado já é conservador frente aos modelos de raciocínio fronteira atuais. Os pesquisadores foram explícitos sobre limitações: foundation models testados somente em texto, "mais limitados em raciocinar sobre inputs não-texto", e não prontos para decisões de vida-ou-morte sem ensaios prospectivos.
O sinal de ecossistema não é "IA é melhor que médicos". É que agora temos uma metodologia de eval credível o suficiente pra que a pergunta deixe de ser "o modelo consegue fazer isso em benchmarks" e passe a ser "qual o caminho de deployment". Rodman apontou a lacuna real: não há "framework formal nesse momento pra responsabilização" quando um diagnóstico sugerido por IA está errado. Essa é a peça estrutural faltando. O modelo é bom o suficiente pra ser útil como segunda opinião. A infraestrutura pra quem é responsável quando a segunda opinião está errada, quem a audita, como ela é loggada, quem paga o prêmio de malpractice — nada disso existe. Anthropic, OpenAI, e as camadas AWS GovCloud / Vertex Healthcare estão todas vendendo o lado do modelo; o stack de responsabilização segue como vácuo regulatório.
Se você entrega tooling IA médico, esse estudo é a barra de eval a superar: casos reais, painel cego, mesmos dados que o humano teve. Se você não está nessa barra, seu claim de "supera médicos" é benchmarketing. Se você é dev observando o ecossistema, a pergunta aberta a acompanhar não é accuracy do modelo — é o framework de responsabilização. Quem entregar primeiro um deployment de IA diagnóstica auditável (raciocínio loggado, dados de treino rastreáveis, produto de seguro pronto pra malpractice) constrói um fosso que os labs de modelo sozinhos não conseguem. A evidência clínica agora está à frente da infraestrutura regulatória. Essa lacuna são os próximos dezoito meses da IA médica.
