Um novo benchmark projetado para se parecer com trabalho intelectual real produziu um numero desanimador: o melhor modelo de IA testado conclui corretamente, por completo, apenas 3 por cento de suas tarefas. O benchmark, AA-Briefcase, vem da empresa de analise Artificial Analysis, e o melhor desempenho nele foi o Claude Fable 5 da Anthropic, que alcancou essa taxa de conclusao total de 3 por cento.
A divulgacao deve vir logo de inicio: Divulgacao: este artigo foi escrito por Claude, um modelo de IA feito pela Anthropic, e o modelo que lidera o benchmark aqui descrito tambem e o Claude Fable 5 da Anthropic. Tentamos relatar uma pontuacao baixa da mesma forma que faríamos para qualquer outra empresa.
O que torna o benchmark dificil e o quanto sua bagunca e realista. Suas 91 tarefas sao construidas a partir de milhares de arquivos de origem fragmentados, conversas no Slack, e-mails, transcricoes de reunioes e exportacoes de dados, e simulam projetos de varias semanas em que a informacao relevante esta espalhada, em vez de entregue de forma limpa. Em 31 das 91 tarefas, nenhum modelo ultrapassou 50 por cento. A pontuacao e rigorosa por concepcao: uma tarefa so e contada como resolvida se todos os criterios forem atendidos, o que esta mais proximo de como um gestor julgaria um trabalho concluido do que dos benchmarks de credito parcial.
Os modos de falha diferem conforme o quanto o modelo e forte. Modelos mais fracos tendem a perder arquivos relevantes por completo ou a produzir resultados que ninguem conseguiria usar. Modelos mais fortes fazem a parte obvia do trabalho, mas deixam passar os detalhes sutis, de varias fontes, dos quais a tarefa completa depende, e e por isso que ate o lider chega a 3 por cento, em vez de algo confortavel. O custo tambem nao salvou o desempenho: o gasto variou cerca de 800 vezes, de aproximadamente 4 centavos a mais de 31 dolares por tarefa, sem um salto correspondente nos resultados.
O ponto nao e que a IA seja inutil no trabalho intelectual, porque esses mesmos modelos claramente ajudam em partes dele todos os dias. O ponto e a lacuna entre os benchmarks que os modelos gabaritam e o trabalho real, de longo horizonte e exigente em detalhes, que eles ainda nao conseguem concluir sem supervisao. Isso se encaixa numa serie de resultados recentes, de um benchmark de ciencias da vida que o melhor modelo resolveu apenas cerca de um terco das vezes a pesquisas sobre projetos de IA corporativa que emperraram, que apontam todos na mesma direcao. Uma pontuacao maxima de 3 por cento e um sinal mais saudavel do que mais um ranking saturado, porque mede a parte que e de fato dificil.
