Camada: Definição e significado — Wiki de IA

Um grupo de neurônios que processa dados em um nível específico de abstração numa rede neural. A camada de entrada recebe dados brutos. As camadas ocultas (as do meio) aprendem representações cada vez mais abstratas. A camada de saída produz o resultado final. "Deep" learning significa muitas camadas ocultas — LLMs modernos têm de 32 a mais de 128 camadas.

Por que isso importa

As camadas criam a hierarquia que torna o deep learning poderoso. Camadas iniciais aprendem padrões simples (bordas em imagens, fragmentos de palavras em texto). Camadas do meio combinam esses padrões em conceitos (rostos, frases). Camadas profundas combinam conceitos em compreensão de alto nível (reconhecimento de cenas, raciocínio). A profundidade de uma rede determina a complexidade dos padrões que ela consegue aprender.

Em profundidade

Em um Transformer, cada camada (chamada de "bloco") consiste em duas subcamadas: uma camada de atenção multi-head (que mistura informações entre tokens) e uma rede feedforward (que processa cada token independentemente). Cada subcamada tem uma conexão residual (a entrada é adicionada de volta à saída) e normalização. Um Transformer de 32 camadas aplica esse padrão atenção+FFN 32 vezes, refinando a representação a cada vez.

O Que Acontece Através das Camadas

Pesquisas revelaram um padrão aproximado em LLMs: camadas iniciais lidam com sintaxe e padrões superficiais, camadas do meio lidam com significado semântico e reconhecimento de entidades, e camadas finais lidam com raciocínio específico da tarefa e formatação de saída. Não é uma fronteira rígida — a informação flui por todas as camadas via conexões residuais — mas explica por que algumas técnicas de fine-tuning modificam apenas certas camadas e por que podar camadas do meio frequentemente prejudica mais do que podar camadas iniciais ou finais.

Largura vs. Profundidade

A "largura" de uma rede é o número de neurônios por camada (a dimensão do modelo). Sua "profundidade" é o número de camadas. Ambos importam, mas contribuem de formas diferentes: camadas mais largas podem representar mais características simultaneamente, enquanto redes mais profundas podem aprender padrões mais complexos e composicionais. LLMs modernos tendem a ser tanto largos (dimensões de 4096–8192) quanto profundos (32–128 camadas). Leis de escala sugerem que largura e profundidade devem ser escaladas juntas para desempenho ótimo.

Camada

Por que isso importa

Em profundidade

O Que Acontece Através das Camadas

Largura vs. Profundidade

Conceitos relacionados