Microsoft lanzó Copilot Health este mes, permitiendo a usuarios conectar historiales médicos y hacer preguntas de salud directamente a través de su chatbot. Días antes, Amazon expandió Health AI más allá de sus suscriptores de One Medical a disponibilidad general. Estas se unen a ChatGPT Health de OpenAI y Claude de Anthropic en una súbita carrera por desplegar IA de salud para consumidores, impulsada por demanda masiva—solo Microsoft maneja 50 millones de preguntas de salud diarias a través de Copilot.
El momento no es coincidencial. Estas compañías argumentan que los LLM han cruzado un umbral de capacidad donde pueden proporcionar consejos médicos de forma segura. Dominic King de Microsoft, ex cirujano que lidera sus esfuerzos de IA de salud, señala "enormes avances en las capacidades de la IA generativa para responder preguntas de salud". Pero esta autoevaluación de las compañías que construyen estos productos levanta banderas rojas sobre la supervisión en aplicaciones de atención médica.
Investigadores están rechazando la falta de evaluación independiente. Aunque algunos estudios sugieren que los LLM actuales pueden hacer recomendaciones de salud útiles, expertos argumentan que estas herramientas necesitan pruebas rigurosas de terceros antes del lanzamiento amplio—no solo investigación interna de la compañía. "La base de evidencia realmente necesita estar ahí", dice Andrew Bean de Oxford, destacando el riesgo de que las compañías tengan puntos ciegos al evaluar sus propios productos de alto riesgo.
Para desarrolladores y usuarios de IA, esta ola representa tanto oportunidad como precaución. La demanda es claramente masiva, y la capacidad técnica puede finalmente existir. Pero construir o desplegar IA de salud sin validación de seguridad independiente podría exponer a usuarios a riesgos serios que las evaluaciones lideradas por compañías podrían pasar por alto.
