Aprendizado profundo: Definição e significado — Wiki de IA

Um subconjunto do aprendizado de máquina que utiliza redes neurais com muitas camadas (daí o termo "deep") para aprender representações hierárquicas dos dados. Cada camada transforma sua entrada em algo ligeiramente mais abstrato — de pixels para bordas, formas, objetos e conceitos. O aprendizado profundo é o que tornou possível a revolução da inteligência artificial moderna: é a abordagem por trás dos LLMs, geradores de imagens, reconhecimento de fala e praticamente todos os avanços da IA desde 2012.

Por que isso importa

Deep learning é o impulso da era atual da IA. Antes de 2012, a IA era uma colagem de algoritmos especializados. Deep learning unificou tudo sob um paradigma: empilhe camadas suficientes, forneça dados suficientes, aplique recursos computacionais suficientes e o modelo descobre o resto. Compreender deep learning é compreender por que a IA de repente funciona.

Em profundidade

A história do aprendizado profundo tem um ponto de inflexão específico: a competição ImageNet de 2012, onde a rede neural convolucional de Alex Krizhevsky (AlexNet) superou todas as outras abordagens por uma margem que surpreendeu o campo. O segundo colocado utilizou características manualmente engenhariadas, construídas por estudantes de doutorado em visão computacional após anos de ajustes cuidadosos. AlexNet utilizou cinco camadas convolucionais treinadas em duas GPUs GTX 580 por cerca de uma semana. Ele venceu aprendendo suas próprias características diretamente dos pixels, e não estava nem perto — a taxa de erro caiu de 26% para 16% em um único ano. Esse resultado não apenas venceu uma competição. Ele reorganizou todo o campo da inteligência artificial. Em dois anos, praticamente todos os resultados principais em visão computacional utilizavam redes neurais profundas. Em cinco anos, a mesma abordagem dominou o processamento de linguagem natural, reconhecimento de fala e jogos. A lição foi brutal em sua simplicidade: deixe a rede descobrir por si mesma, e dê a ela o suficiente de dados e computação para fazê-lo.

Como a Profundidade Cria Abstração

O "profundo" em aprendizado profundo não é apenas uma estratégia de branding. A profundidade é o mecanismo pelo qual as redes neurais constroem abstrações. Em um classificador de imagens, a primeira camada aprende a detectar bordas — gradientes simples orientados que respondem a limites de contraste. A segunda camada combina essas bordas em texturas e cantos. A terceira camada monta texturas em partes: um olho, uma roda, uma folha. Ao chegar às camadas finais, a rede opera em conceitos de alto nível que correspondem a coisas que humanos reconheceriam. Essa composição hierárquica é o motivo pelo qual redes profundas podem aprender representações que redes rasas não conseguem — cada camada constrói sobre a anterior, e a capacidade representacional cresce de forma combinatorial com a profundidade. O mesmo princípio se aplica a modelos de linguagem. Camadas iniciais capturam sintaxe de nível de token e padrões locais. Camadas intermediárias desenvolvem compreensão contextual, rastreando referências e relações entre frases. Camadas tardias lidam com raciocínio abstrato, identificação de tarefas e planejamento de saída. Ninguém programa explicitamente essas camadas para fazer essas coisas. A estrutura emerge do treinamento em suficientes dados com suficiente profundidade, que é tanto o poder quanto o mistério da abordagem.

A Dependência de Hardware

O aprendizado profundo não existiria sem GPUs, e isso não é uma metáfora. O treinamento de redes neurais é dominado por multiplicações de matrizes — passes para frente, passes para trás, atualizações de pesos, todos eles reduzíveis a multiplicar grandes matrizes entre si. CPUs executam essas operações sequencialmente em um punhado de núcleos. GPUs executam em paralelo em milhares de núcleos. A diferença não é 2x ou 5x — é 50x a 100x para as operações que importam. A plataforma CUDA da NVIDIA, originalmente construída para gráficos de jogos de vídeo, acabou sendo quase perfeitamente adequada para treinar redes neurais. Esse acidente da história do hardware é uma razão principal pela qual a NVIDIA tornou-se uma das empresas mais valiosas do mundo. A dependência só se aprofundou desde então. Treinamentos modernos utilizam milhares de GPUs se comunicando por interconexões de alta velocidade, e o custo de uma única execução de treinamento de um modelo de fronteira subiu de milhares de dólares em 2012 para centenas de milhões em 2025. Essa dependência de hardware também é o que torna o aprendizado profundo inacessível para a maioria dos pesquisadores sem apoio institucional ou créditos de computação em nuvem — uma tensão que o campo nunca resolveu completamente.

A Hipótese de Escalonamento

A hipótese de escalonamento diz que você pode tornar modelos mais inteligentes tornando-os maiores — mais parâmetros, mais dados, mais computação — e que essa relação segue leis de potência previsíveis. Por vários anos, essa hipótese parecia quase razoavelmente verdadeira. O GPT-2 (1,5 bilhão de parâmetros) mal conseguia escrever um parágrafo coerente. O GPT-3 (175 bilhões) conseguia escrever ensaios e fazer aprendizado com poucos exemplos. O GPT-4 passou no exame da bar. Cada salto de escala trouxe saltos qualitativos de capacidade que ninguém havia treinado explicitamente o modelo para ter. Mas a hipótese tem limites, e o campo está começando a encontrá-los. Os dados de treinamento estão se esgotando — toda a internet pública já foi raspada, e os dados sintéticos introduzem seus próprios problemas. Os custos de computação estão se tornando proibitivos mesmo para os laboratórios mais ricos. E algumas capacidades (aritmética confiável, planejamento de longo prazo consistente, não inventar informações) não parecem se beneficiar limpa e simplesmente do escalonamento. O resultado é uma mudança para a eficiência: melhores arquiteturas, melhores receitas de treinamento, melhor curadoria de dados e técnicas de inferência como raciocínio em cadeia de pensamento que extraem mais capacidade dos modelos existentes.

Onde Estamos Agora

Até 2026, a arquitetura Transformer venceu. Ela domina modelos de linguagem, alimenta a maioria dos geradores de imagens (por meio de modelos de difusão com backbones Transformer), lida com áudio, vídeo e entradas multimodais. Mas domínio não significa permanência. O custo de atenção quadrático da Transformer — cada token atendendo a cada outro token — cria uma parede de escalonamento dura para sequências longas. Isso está impulsionando pesquisas sérias sobre alternativas. Modelos de Espaço de Estado (SSMs), particularmente a família Mamba, processam sequências em tempo linear mantendo um estado oculto comprimido em vez de atenção par a par explícita. Arquiteturas híbridas que misturam camadas Transformer com camadas SSM estão mostrando resultados fortes, mantendo a qualidade da Transformer em tarefas de curto alcance enquanto ganham a eficiência do SSM em sequências longas. A próxima geração de modelos fundamentais provavelmente não será Transformers puros. Eles serão híbridos — arquiteturas que combinam atenção onde ela importa mais com mecanismos mais eficientes em todos os outros lugares. O aprendizado profundo não terminou de evoluir. Ele apenas terminou sua primeira atuação.

Aprendizado profundo