En WIRED Health Londres el 16 de abril, Reid Hoffman — cofundador de LinkedIn, miembro del consejo de OpenAI, fundador de la startup de descubrimiento de fármacos contra el cáncer Manas AI — dijo que cualquier doctor que no use uno o más modelos frontier como segunda opinión está "al borde de cometer mala praxis". Su argumento es que los LLMs frontier han ingerido billones de palabras de información médica y pueden señalar posibilidades que un clínico podría perder; el humano mantiene la autoridad de decisión pero pierde un error evitable. Hoffman reconoció que estudios anteriores mostraron que los LLMs dan información inexacta y cambiante a usuarios del público general que buscan consejos médicos, pero su encuadre es que el modo de fallo es "subcontratar el pensamiento crítico" en lugar de "aumentarlo". También señaló la crisis de personal del NHS del Reino Unido como la razón estructural por la cual este argumento importa ahora: no hay suficientes doctores, asistentes médicos LLM gratuitos en cada smartphone podrían funcionar como triaje, y rechazar el aumento es, en su opinión, dejar a los pacientes peor atendidos. El encuadre de "mala praxis" es retóricamente agresivo — la mayoría de los clínicos rechazarán el lenguaje incluso si aceptan alguna versión de la afirmación subyacente — pero cristaliza una pregunta que los builders de IA médica han estado evitando durante dos años.
La evidencia de investigación clínica detrás del argumento de Hoffman es más mixta de lo que sugiere la frase efectista. Los modelos frontier han producido tanto un desempeño impresionante en case-write-up (algunos estudios recientes muestran que los sistemas de clase GPT superan a los residentes en viñetas de razonamiento diagnóstico) como modos de fallo bien documentados (interacciones farmacológicas alucinadas, diagnósticos confiadamente erróneos de enfermedades raras, incapacidad para manejar señales clínicas contradictorias). El estudio de replicación de Centaur de la Universidad de Zhejiang que cubrí ayer — los investigadores reemplazaron los prompts de tareas cognitivas con "Por favor elige la opción A" y observaron al modelo continuar produciendo respuestas canónicas de los datos de entrenamiento — es exactamente el modo de fallo que debería poner nervioso a cualquier clínico sobre el uso acrítico de segunda opinión. El modelo no está razonando sobre tu paciente específico. Está pattern-matcheando la descripción del caso con lo más cercano en su distribución de entrenamiento y produciendo la respuesta modal correcta para ese patrón. A veces eso es mejor que un residente cansado a las 3 de la mañana. A veces está recuperando confiadamente una respuesta a una pregunta diferente de la que el paciente realmente está presentando. La afirmación de Hoffman de que el encuadre de segunda opinión resuelve esto es parcialmente correcta — se supone que el humano integra — pero asume que el clínico tiene el tiempo y el escepticismo calibrado para anular una salida LLM que suena confiada, lo que la literatura empírica sobre sesgo de automatización sugiere que a menudo no harán.
El problema de arquitectura de despliegue que esto saca a la superficie es la parte que los builders de IA médica necesitan resolver, y rima con el patrón cross-domain sobre el que he estado escribiendo toda la semana. El encuadre detección-vs-autorización de la pieza del bot de Thales, el encuadre procedencia-y-proceso de la pieza de detección-IA-sobre-estudiantes, y el encuadre de sustitución-de-instrucciones de la pieza de Centaur convergen todos aquí. La "segunda opinión" de Hoffman solo funciona como modelo de despliegue si el flujo de trabajo captura tres cosas en una forma estructurada y auditable: lo que el clínico vio y concluyó; lo que el modelo produjo y sobre qué entrada; y la decisión de override o concurrencia con el razonamiento del clínico adjunto. Ninguna de las interfaces de chat de grado de consumidor que el personal médico está usando off-the-shelf hoy produce ese artefacto. La pregunta de producto para los próximos 18 meses de IA médica no es "¿es el modelo lo suficientemente bueno?" sino "¿es el flujo de trabajo lo suficientemente bueno para que cuando el paciente sea dañado, puedas reconstruir quién razonó sobre qué, cuándo?". Sin eso, "segunda opinión" colapsa en "le pregunté a ChatGPT y me fui con lo que dijo" — que es exactamente la exposición a mala praxis que el encuadre de Hoffman intenta evadir. La arquitectura importa más que la precisión del modelo.
Tres takeaways para los builders. Primero, si estás construyendo cualquier cosa en IA clínica — soporte-diagnóstico, triaje, EHR-summarization, comprobación de interacciones farmacológicas — la pregunta de producto no es el modelo. Es el artefacto de cadena-de-razonamiento que produce tu herramienta. Las compañías que ganen la próxima década en IA médica serán las que hagan visible y anulable el razonamiento del clínico como una salida de primera clase, no como una ocurrencia tardía. Construye para la deposición del abogado de mala praxis en seis años, no para la demo. Segundo, vigila a los reguladores, no solo a los clínicos. La FDA, MHRA, EMA y los organismos profesionales nacionales están todos actualmente en silencio sobre si "consultó un LLM" es parte del estándar de cuidado, pero el encuadre de Hoffman empuja la pregunta al aire libre. El primer caso importante de mala praxis donde el argumento del demandante es "el clínico debería haber usado herramientas LLM disponibles y no lo hizo" reformula la conversación regulatoria, y ese caso está llegando, probablemente dentro de 18 meses. Tercero, el pitch "asistente médico de smartphone gratuito" estilo NHS que hace Hoffman es el canario para qué regímenes regulatorios aceptan el triaje asistido por LLM como aumento en lugar de práctica-de-medicina-sin-licencia. Reino Unido, Singapur, EAU y Estonia son los más propensos a dar luz verde; las juntas médicas estatales de EE.UU. son las más propensas a empujar atrás. La oportunidad de producto es real, pero la fricción jurisdiccional definirá qué builders envían a escala y cuáles se atascan en pilotos.
