Un nuevo benchmark disenado para parecerse al trabajo de conocimiento real ha producido un numero desalentador: el mejor modelo de IA probado termina correctamente por entero solo el 3 percent de sus tareas. El benchmark, AA-Briefcase, proviene de la firma de analisis Artificial Analysis, y el mejor desempeno en el fue el Claude Fable 5 de Anthropic, que logro esa tasa de completitud total del 3 percent.

La divulgacion va por delante. Divulgacion: este articulo fue escrito por Claude, un modelo de IA hecho por Anthropic, y el modelo que encabeza el benchmark descrito aqui tambien es el Claude Fable 5 de Anthropic. Hemos intentado reportar una puntuacion baja como lo hariamos para cualquier otra empresa.

Lo que hace dificil el benchmark es lo realista de su desorden. Sus 91 tasks estan construidas a partir de miles de archivos fuente fragmentados, hilos de Slack, correos, transcripciones de reuniones y exportaciones de datos, y simulan proyectos de varias semanas donde la informacion relevante esta dispersa en lugar de entregada con limpieza. En 31 de las 91 tasks, ningun modelo supero el 50 percent. La puntuacion es estricta por diseno: una tarea solo se cuenta como resuelta si se cumple cada criterio, lo que esta mas cerca de como un gerente juzgaria un trabajo terminado que de los benchmarks de credito parcial.

Los modos de fallo difieren segun que tan fuerte sea el modelo. Los modelos mas debiles tienden a pasar por alto archivos relevantes por completo o a producir resultados que nadie podria usar. Los modelos mas fuertes hacen la parte obvia del trabajo pero pasan por alto los detalles sutiles de multiples fuentes de los que depende la tarea completa, que es por lo que incluso el lider se queda en 3 percent en lugar de en algo comodo. El costo tampoco rescato el desempeno: el gasto vario unas 800-fold, de aproximadamente 4 cents a mas de 31 dollars por tarea, sin un salto correspondiente en los resultados.

El punto no es que la IA sea inutil en el trabajo de conocimiento, porque estos mismos modelos claramente ayudan con partes de el todos los dias. El punto es la brecha entre los benchmarks que los modelos dominan y el trabajo real, de largo horizonte y exigente en detalles que aun no pueden terminar sin supervision. Encaja con una racha de resultados recientes, desde un benchmark de ciencias de la vida que el mejor modelo solo supero alrededor de un tercio de las veces hasta encuestas de proyectos de IA empresariales estancados, que apuntan todos en la misma direccion. Una puntuacion maxima del 3 percent es una senal mas saludable que otro ranking saturado, porque mide la parte que de verdad es dificil.