AI21 Labs: Definição e significado — Wiki de IA

Uma empresa israelense de IA conhecida pelo Jamba, a primeira arquitetura híbrida de grau de produção que combina camadas de attention de Transformer com camadas de SSM Mamba. AI21 foi fundada por pesquisadores de IA (incluindo Yoav Shoham) e constrói modelos de linguagem desde 2017, antecedendo o ChatGPT. Seus modelos estão disponíveis via API e através de provedores de nuvem.

Por que isso importa

AI21 Labs importa porque o Jamba provou que arquiteturas híbridas Transformer-SSM funcionam na prática, não apenas em papers de pesquisa. Intercalando camadas de attention e Mamba, Jamba alcança uma janela de contexto de 256K com menor uso de memória do que modelos Transformer puros de qualidade similar. Essa abordagem híbrida pode ser o futuro da arquitetura de LLMs.

Em profundidade

A arquitetura do Jamba intercala blocos de Transformer (com attention padrão) e blocos de Mamba (com state spaces seletivos) em uma proporção de aproximadamente 1:7 — uma camada de attention para cada sete camadas de Mamba. Isso captura o melhor dos dois mundos: camadas Mamba lidam com o grosso do processamento de sequências eficientemente (linear no comprimento da sequência), enquanto camadas de attention fornecem a interação global de tokens que SSMs puros às vezes não conseguem. O resultado: um modelo que cabe em uma única GPU de 80GB com contexto de 256K enquanto iguala modelos Transformer-only em qualidade.

O Componente MoE

Jamba também usa Mixture of Experts (MoE), com 52B parâmetros totais mas apenas ~12B ativos por token. Essa combinação de SSM + Attention + MoE é a arquitetura híbrida mais complexa em produção e demonstra que essas técnicas se compõem bem. A redução de 3x no KV cache comparado a um Transformer puro de qualidade equivalente é praticamente significativa para serving de cargas de trabalho de contexto longo.

AI21 Labs

Por que isso importa

Em profundidade

O Componente MoE

Conceitos relacionados