A discussão sobre emergência começou com um artigo de 2022 da Google e colaboradores que trabalhavam no BIG-Bench, um conjunto massivo de benchmarks com mais de 200 tarefas. Eles testaram modelos de linguagem em uma gama de tamanhos e encontraram algo surpreendente: em muitas tarefas, o desempenho era essencialmente plano (próximo ao aleatório) para modelos pequenos e médios, mas subitamente aumentava drasticamente quando um modelo ultrapassava um certo limiar de parâmetros. O artigo, "Emergent Abilities of Large Language Models" de Wei et al., plotou essas curvas e o padrão era dramático — as habilidades pareciam se ligar como uma luz, não se dissipar gradualmente. A forma como o conceito foi apresentado capturou a imaginação do campo. Se os modelos pudessem adquirir capacidades qualitativamente novas apenas aumentando de tamanho, então o escalonamento não era apenas um desafio de engenharia, mas um caminho para uma inteligência genuinamente surpreendente.
Os exemplos eram convincentes. O GPT-3 (175 bilhões de parâmetros) podia fazer aritmética com poucos exemplos que o GPT-2 (1,5 bilhão) não conseguia nem tocar. A razão multi-etapa, onde um modelo precisa encadear inferências lógicas, aparecia apenas em modelos acima de um certo tamanho. A tradução entre pares de idiomas nos quais o modelo nunca foi explicitamente treinado surgia em escala. A geração de código — a capacidade de escrever programas funcionais a partir de descrições em linguagem natural — passava de inútil para funcional entre 10 e 100 bilhões de parâmetros. A desembaralhamento de palavras, uma tarefa que parece exigir alguma representação interna de ortografia, saltava de 0% para quase perfeito em um intervalo estreito de parâmetros. O padrão se repetia em dezenas de tarefas do BIG-Bench: plano, plano, plano, depois competência súbita. Isso parecia ser evidência de que o escalonamento produzia transições de fase genuínas — mudanças qualitativas no que o modelo podia fazer, e não apenas melhorias quantitativas em como ele executava tarefas familiares.
Em 2023, Rylan Schaeffer, Brando Miranda e Sanmi Koyejo da Stanford publicaram um desafio direto. Seu argumento era preciso: a emergência não é uma propriedade do modelo, mas uma propriedade da métrica. As tarefas do BIG-Bench que mostravam transições abruptas usavam principalmente métricas descontínuas — acurácia de correspondência exata, onde você não recebe crédito algum por respostas quase certas. Um modelo que melhora gradualmente de 0,1% para 5% para 30% de acerto parece estar fazendo nada, nada, nada, depois de repente performando, porque não existe crédito parcial. Quando Schaeffer et al. reavaliaram os mesmos modelos nas mesmas tarefas usando métricas contínuas, como log-likelihood ou acurácia por token, as transições abruptas desapareceram. O desempenho melhorava suavemente e previsivelmente com o escalonamento. A "emergência" era um artefato de escolher métricas que não podiam detectar melhorias graduais. Isso não era apenas uma questão metodológica menor. Se estivesse correto, significava que a narrativa mais emocionante da IA — que modelos maiores desenvolvem espontaneamente novas capacidades — era parcialmente uma ilusão de medição.
As implicações dessa discussão vão além do interesse acadêmico. Se a emergência for real — se os modelos adquirirem realmente capacidades imprevisíveis em certas escalas — então o planejamento de segurança enfrenta um problema fundamental: você não pode se preparar para habilidades que não consegue prever. Um modelo que é inofensivo com 100 bilhões de parâmetros pode desenvolver capacidades de persuasão, estratégias de engano ou habilidades de uso de ferramentas com 1 trilhão de parâmetros, sem qualquer aviso na curva de escalonamento. Essa é a argumentação central para um escalonamento cauteloso e incremental com avaliação extensa em cada etapa. Se a emergência for principalmente um artefato de medição, a situação é mais reconfortante: as capacidades melhoram de forma suave e previsível, então avaliações em escalas menores dão um sinal significativo sobre o que se espera de modelos maiores. As implicações de segurança de cada interpretação são quase opostas, o que é por isso que ambos os lados da discussão estão genuinamente investidos em obter a resposta certa.
A resposta honesta é que o campo ainda não chegou a um consenso. A crítica da Stanford é amplamente aceita como demonstrando que algumas capacidades emergentes relatadas eram artefatos de medição — essa parte não é seriamente contestada. Mas muitos pesquisadores mantêm que a crítica não explica tudo. Certas capacidades, particularmente aquelas envolvendo composicionalidade (combinar habilidades aprendidas de maneiras novas), planejamento e raciocínio multi-etapa, parecem mostrar mudanças qualitativas genuínas que não são facilmente explicadas apenas pela escolha de métricas. A mensagem prática para laboratórios que tomam decisões de escalonamento é mista: você provavelmente pode prever melhorias nas próximas etapas com mais confiabilidade do que sugeriam os primeiros artigos sobre emergência, mas não deve assumir que todas as surpresas foram explicadas. A abordagem prudente — adotada por most laboratórios de fronteira — é avaliar extensivamente em cada aumento de escala e manter a infraestrutura para pausar se algo inesperado surgir. Se você chamar os resultados surpresa de "emergência" ou "melhoria previsível que falhamos em medir corretamente" importa menos do que se você estiver preparado para lidar com eles.