OpenAI lanzo LifeSciBench, una prueba que intenta medir que tan bien ayuda realmente la IA en la investigacion de ciencias de la vida del mundo real, y el resultado principal es aleccionador: el modelo mas fuerte evaluado solo aprueba el 36,1 % de las tareas. Se lee como una verificacion de la realidad deliberada en una semana cargada de afirmaciones sobre una IA que iguala a los medicos y ayuda a descubrir quimica.
En lugar de un cuestionario de hechos, LifeSciBench fue construida por 173 cientificos con doctorado de la biotecnologia y la investigacion farmaceutica, que escribieron 750 tareas que abarcan siete flujos de trabajo de investigacion, desde el manejo de la evidencia hasta la realizacion de analisis y la comunicacion de resultados. Cada tarea se evalua con una rubrica detallada, 19.020 criterios en total y unos 25 por tarea, que califican las afirmaciones, los calculos, las decisiones y las justificaciones especificas que debe contener una buena respuesta. Casi cuatro de cada cinco tareas requieren varios pasos de razonamiento o de decision, de modo que la prueba califica el criterio y no la memorizacion.
Con ese liston, los modelos tienen dificultades. El propio modelo especializado de dominio de OpenAI, GPT-Rosalind, lidero el campo, logrando la mejor puntuacion por tarea en 386 de las 750 tareas y elevando la tasa de aprobacion general del 25,7 % de GPT-5.5 al 36,1 %. Aun asi, esa puntuacion maxima significa que el mejor sistema todavia falla en casi dos tercios de lo que los cientificos expertos considerarian un trabajo de investigacion solido. Una prueba cuyo propio creador no pasa de un tercio es, a su manera, una admision util sobre donde se encuentra realmente la tecnologia.
El momento es elocuente. Esta misma semana trajo un modelo que igualo a los medicos de atencion primaria en el manejo de enfermedades, otro que ayudo a mejorar una reaccion quimica, y una empresa de imagenes que anuncio un escaner medico, todo lo cual invita a leer que la IA ya llego al laboratorio y a la clinica. LifeSciBench es el contrapeso desde dentro de la misma industria: cuando se califica el trabajo del modo en que lo hacen los cientificos en activo, frente a lo que una respuesta cuidadosa debe contener realmente, los mejores modelos de hoy superan alrededor de un tercio. La capacidad es real y va en aumento, pero la distancia que falta hasta el nivel experto es justamente la parte que las demostraciones tienden a omitir.
