Un nuevo estudio Harvard / Beth Israel publicado en Science midió el o1 de OpenAI contra médicos attendings en diagnósticos reales de sala de urgencias, y o1 salió adelante. Setenta y seis pacientes, dos attendings de comparación, dos más como panel ciego para ground truth. o1 alcanzó 67% de accuracy diagnóstica en triage; los médicos de comparación puntuaron 55% y 50%. El modelo recibió los mismos datos EMR que los doctores tenían al momento del diagnóstico — no preprocesados, no curados, no viñetas resumidas por expertos.
El setup es la parte que importa. La mayoría de los titulares de "la IA vence a los médicos" corren sobre viñetas de casos sintéticos, problemas de board exam, o casos publicados curados que los editores ya limpiaron. Este estudio usó registros reales de admisión de urgencias de Beth Israel con la misma información disponible en el momento en que un médico estaba mirando a un paciente. Ground truth vino de un panel ciego — dos attendings evaluadores que no sabían cuáles diagnósticos venían de médicos humanos y cuáles de o1. Los autores principales son Arjun Manrai (Harvard Medical School) y Adam Rodman (Beth Israel Deaconess). El modelo testeado fue o1, no o3 ni GPT-5 ni Claude Sonnet 4.5; el resultado ya es conservador frente a los modelos de razonamiento frontera actuales. Los investigadores fueron explícitos sobre limitaciones: modelos fundación testeados solo sobre texto, "más limitados al razonar sobre inputs no-texto", y no listos para decisiones de vida-o-muerte sin ensayos prospectivos.
La señal de ecosistema no es "la IA es mejor que los médicos". Es que ahora tenemos una metodología de eval lo bastante creíble como para que la pregunta deje de ser "¿puede el modelo hacer esto en benchmarks?" y pase a ser "¿cuál es el camino de despliegue?". Rodman marcó la brecha real: no hay "marco formal en este momento para rendición de cuentas" cuando un diagnóstico sugerido por IA está equivocado. Esa es la pieza estructural que falta. El modelo es lo bastante bueno para ser útil como segunda opinión. La infraestructura para quién es responsable cuando la segunda opinión está mal, quién la audita, cómo se loguea, quién paga la prima de malpractice — nada de eso existe. Anthropic, OpenAI, y las capas AWS GovCloud / Vertex Healthcare están todas vendiendo el lado del modelo; el stack de rendición de cuentas queda como un vacío regulatorio.
Si entregas tooling IA médico, este estudio es la barra de eval a superar: casos reales, panel ciego, mismos datos que tenía el humano. Si no estás en esa barra, tu claim de "supera a los médicos" es benchmarketing. Si eres un dev mirando el ecosistema, la pregunta abierta a rastrear no es la accuracy del modelo — es el marco de rendición de cuentas. Quien entregue primero un despliegue de IA diagnóstica auditable (razonamiento logueado, datos de entrenamiento trazables, producto de seguro listo para malpractice) construye un foso que los labs de modelo solos no pueden. La evidencia clínica ahora va por delante de la infraestructura regulatoria. Esa brecha es los próximos dieciocho meses de la IA médica.
