A história de origem da DeepSeek é diferente de qualquer outro grande laboratório de IA. A empresa foi fundada em 2023 como subsidiária da High-Flyer Capital Management, um fundo de hedge quantitativo sediado em Hangzhou, China, fundado por Liang Wenfeng. A High-Flyer vinha construindo sua própria infraestrutura de IA para trading desde 2016 e havia acumulado um cluster substancial de GPUs — supostamente cerca de 10.000 chips NVIDIA A100 — antes que os controles de exportação dos EUA em outubro de 2022 cortassem o acesso da China ao hardware de IA mais avançado. Liang, que possui diplomas em engenharia de informação eletrônica pela Universidade de Zhejiang, decidiu pivotar essa infraestrutura para pesquisa de IA de propósito geral. Diferente da trajetória típica de startup de levantar capital de risco e contratar pesquisadores celebridades, a DeepSeek foi inteiramente autofinanciada pela High-Flyer, dava poucas entrevistas e publicava artigos que falavam por si mesmos. A equipe era jovem — em grande parte recrutada das melhores universidades chinesas — e operava com perfil público mínimo.
Os lançamentos iniciais da DeepSeek foram sólidos mas não geraram grandes manchetes. O DeepSeek-V1 e os modelos DeepSeek Coder mostraram competência sem desafiar a fronteira. Isso mudou dramaticamente com o DeepSeek-V2 em maio de 2024, que introduziu o Multi-Head Latent Attention (MLA) — uma técnica que comprimia o cache de key-value durante a inferência, reduzindo dramaticamente os requisitos de memória e custo. O modelo usava uma arquitetura Mixture of Experts com 236 bilhões de parâmetros totais mas apenas 21 bilhões ativos por token, tornando-o tanto poderoso quanto barato de rodar. A DeepSeek precificou sua API a aproximadamente 1/30 do custo do GPT-4, enviando um choque pela indústria. Então veio o DeepSeek-V3 em dezembro de 2024, que a equipe alegou ter sido treinado por aproximadamente US$ 5,5 milhões em custos de compute — um número que, se preciso, era uma ordem de magnitude menor do que labs ocidentais gastavam em modelos comparáveis. O V3 usou treinamento em precisão mista FP8, um objetivo de predição multi-token e balanceamento de carga sem loss auxiliar para suas camadas MoE, cada um uma inovação significativa em eficiência de treinamento.
O DeepSeek-R1, lançado em 20 de janeiro de 2025, foi o momento em que o mundo mais amplo prestou atenção. O R1 era um modelo de raciocínio no molde do o1 da OpenAI — podia "pensar" através de problemas complexos passo a passo antes de responder — e igualou ou excedeu o desempenho do o1 em benchmarks de matemática, programação e ciência. O modelo foi lançado como open weights sob licença MIT. O impacto foi imediato e dramático. Em 27 de janeiro, o dia em que os mercados processaram plenamente as implicações, as ações da NVIDIA caíram quase 17% em uma única sessão — a maior perda de capitalização de mercado em um único dia na história dos EUA na época — enquanto investidores recalculavam se a suposição de que o progresso em IA exigia gastos sempre crescentes com GPUs ainda se sustentava. O "choque DeepSeek" se tornou um evento geopolítico: se um laboratório chinês podia igualar modelos de fronteira dos EUA apesar de estar cortado do hardware mais recente, o que isso dizia sobre a eficácia dos controles de exportação? E se os custos de treinamento estavam despencando, o que acontecia com os modelos de negócio de empresas vendendo infraestrutura de IA cara?
A história técnica por trás da eficiência da DeepSeek é genuinamente interessante e não se reduz a um único truque. A equipe fez uso agressivo de inovações arquiteturais (MLA, DeepSeekMoE com experts de grão fino), técnicas de treinamento (FP8 desde o início do pré-treinamento em vez de apenas inferência, predição multi-token, learning rate schedules cuidadosamente ajustados) e engenharia de infraestrutura (kernels customizados, pipeline parallelism agressivo). Para o R1 especificamente, usaram uma abordagem nova de reinforcement learning: em vez de depender de dados caros de preferência humana como RLHF, aplicaram Group Relative Policy Optimization (GRPO) em tarefas de matemática e programação com respostas verificáveis, deixando o modelo descobrir padrões de raciocínio chain-of-thought em grande parte sozinho. Um pequeno dataset de "cold start" ajudou, mas o insight central foi que o raciocínio podia emergir de RL com verificação de ground-truth em vez de exigir anotação humana massiva. Eles também demonstraram "destilação" — treinando modelos menores (1.5B, 7B, 8B, 14B, 32B, 70B parâmetros) para imitar as cadeias de raciocínio do R1, produzindo uma família de modelos eficientes que performavam bem acima de sua classe de tamanho.
A DeepSeek não pode ser entendida fora do contexto da competição tecnológica EUA-China. Os modelos da empresa cumprem os requisitos de censura chineses — pergunte sobre a Praça Tiananmen, a independência de Taiwan ou Xi Jinping, e você receberá uma recusa ou a posição oficial do governo chinês. Isso é um requisito legal para qualquer empresa de IA operando na China, não uma escolha, mas limita a utilidade dos modelos para usuários que precisam de saídas não censuradas (embora os open weights signifiquem que outros podem fazer fine-tuning para remover a censura). Os controles de exportação dos EUA que restringem o acesso da China a GPUs avançadas são tanto um obstáculo que a DeepSeek contornou quanto, paradoxalmente, um estímulo que os forçou em direção às inovações de eficiência que se tornaram sua vantagem. Também há questões abertas sobre os recursos reais de compute da DeepSeek — alguns analistas especularam que a High-Flyer pode ter acumulado mais GPUs do que publicamente reconhecido antes da proibição de exportação, e o custo de treinamento de US$ 5,5 milhões para o V3 foi questionado como potencialmente excluindo custos significativos de pesquisa prévia e infraestrutura. Independentemente disso, as conquistas da DeepSeek são reais, seus artigos são detalhados e reproduzíveis, e eles mudaram fundamentalmente a conversa sobre o que é necessário para construir IA de fronteira.