Na WIRED Health Londres em 16 de abril, Reid Hoffman — cofundador da LinkedIn, membro do conselho da OpenAI, fundador da startup de descoberta de drogas contra o câncer Manas AI — disse que qualquer médico que não use um ou mais modelos frontier como segunda opinião está "beirando a cometer má práxis". Seu argumento é que LLMs frontier ingeriram trilhões de palavras de informação médica e podem sinalizar possibilidades que um clínico pode perder; o humano mantém autoridade de decisão mas perde um erro evitável. Hoffman reconheceu que estudos anteriores mostraram que LLMs dão informação imprecisa e mutável a usuários do público geral procurando aconselhamento médico, mas seu enquadramento é que o modo de falha é "terceirizar o pensamento crítico" em vez de "aumentá-lo". Ele também apontou a crise de pessoal do NHS do Reino Unido como a razão estrutural pela qual esse argumento importa agora: não há médicos suficientes, assistentes médicos LLM gratuitos em cada smartphone poderiam funcionar como triagem, e recusar o aumento é, na sua visão, deixar os pacientes pior atendidos. O enquadramento de "má práxis" é retoricamente agressivo — a maioria dos clínicos rejeitará a linguagem mesmo aceitando alguma versão da alegação subjacente — mas cristaliza uma questão que builders de IA médica vêm evitando há dois anos.
A evidência de pesquisa clínica por baixo do argumento de Hoffman é mais mista do que sugere o slogan. Modelos frontier produziram tanto desempenho impressionante em case-write-up (alguns estudos recentes mostram sistemas classe GPT superando residentes em vinhetas de raciocínio diagnóstico) quanto modos de falha bem documentados (interações medicamentosas alucinadas, diagnósticos confiantemente errados de doenças raras, incapacidade de lidar com sinais clínicos contraditórios). O estudo de replicação Centaur da Universidade de Zhejiang que cobri ontem — pesquisadores substituíram prompts de tarefas cognitivas por "Por favor escolha a opção A" e observaram o modelo continuar a produzir respostas canônicas dos dados de treinamento — é exatamente o modo de falha que deve deixar qualquer clínico nervoso sobre uso acrítico de segunda opinião. O modelo não está raciocinando sobre seu paciente específico. Está pattern-matchando a descrição do caso ao mais próximo em sua distribuição de treinamento e produzindo a resposta modal correta para esse padrão. Às vezes isso é melhor do que um residente cansado às 3h da manhã. Às vezes está confiantemente recuperando uma resposta para uma pergunta diferente da que o paciente está realmente apresentando. A alegação de Hoffman de que o enquadramento de segunda opinião resolve isso é parcialmente correta — o humano deve integrar — mas assume que o clínico tem tempo e ceticismo calibrado para anular uma saída LLM que soa confiante, o que a literatura empírica sobre viés de automação sugere que muitas vezes não farão.
O problema de arquitetura de deployment que isso traz à tona é a parte que builders de IA médica precisam resolver, e rima com o padrão cross-domain sobre o qual venho escrevendo a semana toda. O enquadramento detecção-vs-autorização da peça do bot da Thales, o enquadramento procedência-e-processo da peça de detecção-IA-sobre-estudantes, e o enquadramento substituição-de-instruções da peça do Centaur convergem todos aqui. A "segunda opinião" de Hoffman só funciona como modelo de deployment se o fluxo de trabalho capturar três coisas em forma estruturada e auditável: o que o clínico viu e concluiu; o que o modelo produziu e em qual entrada; e a decisão de override ou concorrência com o raciocínio do clínico anexo. Nenhuma das interfaces de chat de grau consumidor que a equipe médica está usando off-the-shelf hoje produz esse artefato. A questão de produto para os próximos 18 meses de IA médica não é "o modelo é bom o suficiente?" mas "o fluxo de trabalho é bom o suficiente para que quando o paciente for prejudicado, você consiga reconstruir quem raciocinou sobre o quê, quando?". Sem isso, "segunda opinião" colapsa em "perguntei ao ChatGPT e fui com o que ele disse" — que é exatamente a exposição à má práxis que o enquadramento de Hoffman tenta evadir. A arquitetura importa mais do que a precisão do modelo.
Três takeaways para os builders. Primeiro, se você está construindo qualquer coisa em IA clínica — suporte-diagnóstico, triagem, EHR-summarization, verificação de interações medicamentosas — a questão de produto não é o modelo. É o artefato de cadeia-de-raciocínio que sua ferramenta produz. As empresas que ganharem a próxima década em IA médica serão aquelas que tornam o raciocínio do clínico visível e substituível como uma saída de primeira classe, não uma reflexão tardia. Construa para o depoimento do advogado de má práxis daqui a seis anos, não para a demo. Segundo, observe os reguladores, não apenas os clínicos. A FDA, MHRA, EMA e órgãos profissionais nacionais estão todos atualmente silenciosos sobre se "consultou um LLM" faz parte do padrão de cuidado, mas o enquadramento de Hoffman empurra a questão para o aberto. O primeiro caso importante de má práxis em que o argumento do queixoso é "o clínico deveria ter usado ferramentas LLM disponíveis e não usou" reformula a conversa regulatória, e esse caso está chegando, provavelmente dentro de 18 meses. Terceiro, o pitch de "assistente médico de smartphone gratuito" estilo NHS que Hoffman faz é o canário para quais regimes regulatórios aceitam triagem assistida por LLM como aumento em vez de prática-da-medicina-sem-licença. Reino Unido, Singapura, EAU e Estônia são os mais prováveis de dar luz verde; conselhos médicos estaduais dos EUA são os mais prováveis de empurrar de volta. A oportunidade de produto é real, mas a fricção jurisdicional definirá quais builders enviam em escala e quais ficam presos em pilotos.
