OpenAI afirma que su modelo GPT-5.5 Instant ahora responde preguntas de salud casi tan bien como los modelos Thinking de vanguardia de la empresa, y que en sus propias evaluaciones las respuestas del modelo fueron mejor valoradas que las respuestas escritas por medicos en precision, comunicacion y exhaustividad. La actualizacion se esta desplegando para todos los usuarios de ChatGPT, incluido el nivel gratuito, que es la parte que la hace notable: GPT-5.5 Instant es el modelo rapido y por defecto que la mayoria de la gente recibe, no uno de los modelos de razonamiento mas lentos reservados para los usuarios de pago.

El alcance es la razon por la que importa. OpenAI dice que mas de 230 millones de personas recurren a ChatGPT con preguntas de salud y bienestar cada semana, asi que mejorar el modelo que atiende la mayoria de esas preguntas por defecto afecta a mucha mas gente de lo que lo haria una mejora en un nivel premium. La empresa dice que la nueva version reconoce mejor cuando una situacion puede necesitar atencion urgente, pide el contexto relevante antes de responder, explica que tan segura o insegura esta, y traduce informacion medica densa a un lenguaje claro. Tambien dice que las afirmaciones incorrectas de salud cayeron aproximadamente 71 por ciento durante dos meses de trabajo.

En el lado de la medicion, OpenAI senala un conjunto de evaluaciones de salud, incluido un indicador de referencia que llama HealthBench Professional, en el que afirma que GPT-5.5 Instant alcanza un nivel comparable al de sus modelos de razonamiento de vanguardia. La empresa tambien describe una red global de mas de 260 medicos en 60 paises que ayudan a definir y calificar como se ve una buena respuesta de salud, y es este tipo de revision experta lo que produjo la afirmacion principal de que el modelo superó las propias respuestas escritas por los medicos.

Las advertencias merecen el mismo protagonismo. Cada uno de estos resultados proviene de los propios indicadores de referencia de OpenAI y de sus propios revisores, sin que se haya publicado junto a ellos ninguna validacion independiente ni revisada por pares. Superar las respuestas escritas por medicos en un estudio evaluado mide la calidad de un texto segun lo juzga un panel; no es lo mismo que medir lo que sucede cuando una persona real actua segun el consejo, y la configuracion exacta de la comparacion, incluido si el modelo y los medicos respondieron preguntas identicas con el mismo nivel de detalle, no se expone por completo. Tambien esta el hecho llano de que este es el modelo rapido y no el deliberado, que ahora atiende preguntas de salud para cientos de millones de usuarios gratuitos por defecto. OpenAI sigue diciendo que ChatGPT no es un sustituto de la atencion profesional.

Llega al final de una semana llena de afirmaciones sobre IA medica, desde un escaner corporal completo no comprobado hasta un resultado fundamentado y revisado por pares en el que o3 de OpenAI ayudó a diagnosticar enfermedades raras en el Boston Children's Hospital. Esto se situa en algun punto intermedio: una mejora de capacidad que probablemente es real y genuinamente util para las preguntas cotidianas que la gente ya esta haciendo, envuelta en una afirmacion de marketing que una empresa no deberia poder zanjar sobre su propio producto. Mejores respuestas de salud para 230 millones de personas a la semana es un bien real. Un proveedor que califica su propio modelo por encima de los medicos es una afirmacion que hay que seguir tratando como una afirmacion hasta que alguien externo a la empresa la verifique.