A base intelectual para a ASI vem de I.J. Good, um matemático britânico que trabalhou com Alan Turing. Em 1965, ele escreveu: "Uma máquina ultrainteligente poderia projetar máquinas ainda melhores; haveria então, inquestionavelmente, uma explosão intelectual, e a inteligência humana ficaria muito para trás." Nick Bostrom expandiu essa ideia em seu livro de 2014 Superintelligence, argumentando que, uma vez que um sistema de IA se torne capaz de melhorar sua própria arquitetura e treinamento, poderia rapidamente se autogenerar para níveis de inteligência tão distantes da cognição humana quanto os humanos são dos insetos. A reivindicação principal não é que a ASI seria apenas um pouco mais inteligente do que nós — é que o abismo poderia ser imensamente grande, e a transição do nível humano para uma superinteligência avassaladora poderia acontecer em dias ou semanas, e não em décadas. Isso é o cenário de "takeoff difícil", e continua sendo a ideia mais debatida na segurança da IA.
A maioria dos pesquisadores de IA atuantes é cética sobre a ASI no curto prazo, e eles têm boas razões. A auto-melhoria recursiva soa elegante em teoria, mas encontra barreiras práticas: melhorar um sistema de IA requer não apenas inteligência, mas também dados, computação e insights sobre a própria natureza da inteligência — nenhum dos quais é garantido apenas por ser mais inteligente. Não há evidências de que a inteligência escala sem limites, e podem existir limites computacionais fundamentais sobre o que qualquer sistema pode alcançar. As arquiteturas de IA atuais mostram retornos decrescentes ao escalar, e não há caminho conhecido de um LLM muito capaz para uma verdadeira auto-melhoria recursiva. Dito isso, a maioria desses mesmos pesquisadores leva a risco de longo prazo a sério. O argumento não é "a ASI é impossível", mas sim "a ASI não está iminente, e o caminho para ela provavelmente não se parece com o que a ficção científica imagina". O problema é que, se você estiver errado sobre o cronograma em uma década ou duas, e não tiver se preparado, as consequências poderiam ser catastróficas.
Alinhamento — conseguir que a IA faça o que realmente queremos — já é difícil com os sistemas atuais. No nível de superinteligência, torna-se um problema qualitativamente diferente. As técnicas de alinhamento atuais dependem de uma suposição simples: os humanos podem avaliar se a saída da IA é boa. Usamos RLHF (reinforcement learning from human feedback) porque os humanos podem ler um ensaio e dizer "este é melhor". Usamos red-teaming porque os humanos podem investigar modos de falha. Mas essas técnicas exigem fundamentalmente que o humano seja mais inteligente do que a IA na tarefa avaliada, ou pelo menos inteligente o suficiente para reconhecer saídas boas e ruins. Um sistema superinteligente, por definição, opera além da capacidade de avaliação humana. Poderia produzir soluções que pareçam corretas para nós, mas que contenham falhas sutis que não conseguimos detectar, ou perseguir estratégias que pareçam alinhadas em todos os métricas que podemos medir, mas que estejam realmente otimizando algo completamente diferente. Isso não é um caso hipotético — é o problema central. Você não pode usar RLHF em algo mais inteligente do que você, pela mesma razão que não pode avaliar uma tese de doutorado em uma área que você não entende.
Seja ou não a ASI estar décadas à frente, a possibilidade molda o que acontece hoje de formas concretas. A Anthropic foi fundada explicitamente com a premissa de que a IA avançada poderia representar riscos existenciais, e essa crença orienta suas prioridades de pesquisa, seus padrões de publicação e sua disposição para aceitar um progresso mais lento nas capacidades em troca de melhores garantias de segurança. O charter da OpenAI menciona o objetivo de garantir que a AGI "beneficie toda a humanidade", linguagem que implicitamente reconhece o cenário de ASI. Governos estão elaborando regulamentações de IA com superinteligência em seus modelos de ameaça — a Lei Europeia sobre IA, o decreto executivo de Biden e o quadro de governança da IA da China incluem disposições que só fazem sentido se você levar a IA transformadora a sério. O debate sobre governança de computação — se restringir o acesso aos maiores treinamentos — é diretamente motivado pela ideia de que o escalonamento descontrolado poderia produzir sistemas além da nossa capacidade de controlar. Os padrões de investimento refletem isso também: bilhões fluem para pesquisas de alinhamento, interpretabilidade e segurança da IA não porque os investidores são altruístas, mas porque reconhecem que uma superinteligência desalinhada é ruim para o negócio no sentido mais literal possível.
O debate sobre ASI tende a dois extremos, e ambos são inúteis. Em um extremo, os "pessimistas" atribuem alta probabilidade a uma ASI iminente seguida da extinção humana, às vezes argumentando que o desenvolvimento de IA deve ser totalmente interrompido. No outro extremo, os desdenhosos tratam qualquer discussão sobre superinteligência como ficção científica, digna de atenção séria. O meio razoável — ocupado pela maioria dos pesquisadores que realmente pensaram cuidadosamente sobre isso — parece algo assim: a ASI não está iminente, mas é plausível em um cronograma de décadas a séculos; os riscos são reais o suficiente para merecer pesquisa séria e políticas pensadas; as técnicas atuais de alinhamento são insuficientes para sistemas verdadeiramente superhumanos e precisamos desenvolver melhores com antecedência; e nenhum disso significa que devemos parar de construir IA, mas sim que devemos construí-la com cuidado, com investimentos reais em segurança que sejam proporcionais aos investimentos em capacidade. O desafio é que essa posição nuance não faz boas manchetes, então o debate público é dominado pelos extremos enquanto o trabalho real de tornar a IA avançada segura acontece silenciosamente em laboratórios de pesquisa.