A Zhipu AI surgiu em 2019 do Knowledge Engineering Group da Universidade Tsinghua, uma das instituições de pesquisa mais prestigiadas da China. Os fundadores — liderados pelo CEO Zhang Peng e apoiando-se no trabalho do Professor Tang Jie — haviam passado anos construindo o Academic Knowledge Graph (AMiner) e outros sistemas de conhecimento de larga escala. Reconheceram cedo que a revolução dos transformers estava prestes a tornar modelos de linguagem puros muito mais capazes que grafos de conhecimento tradicionais, e fundaram uma empresa para comercializar essa percepção. Esse DNA acadêmico distingue a Zhipu dos outros campeões de IA da China: enquanto Baidu e Alibaba tinham vastos exércitos de engenharia, a Zhipu começou com profunda credibilidade de pesquisa e um pipeline direto para o pool de talentos da Tsinghua.
A identidade técnica da Zhipu é construída em torno da arquitetura GLM (General Language Model), que difere da abordagem autorregressiva padrão estilo GPT. GLM usa um objetivo autorregressivo de preenchimento de lacunas que combina os pontos fortes de pré-treinamento de autoencoding (como BERT) e autorregressivo (como GPT) em um framework unificado. ChatGLM, seu modelo conversacional, foi um dos primeiros LLMs chineses a ganhar ampla adoção entre desenvolvedores — em parte porque foi liberado como open source cedo e rodava bem em GPUs de consumo. ChatGLM-6B se tornou algo de um fenômeno em 2023, oferecendo aos desenvolvedores um modelo bilíngue chinês-inglês que podiam realmente fazer fine-tuning em uma única GPU. A geração GLM-4, lançada em 2024, fechou muito da lacuna com o GPT-4 em tarefas de língua chinesa e introduziu fortes capacidades de function-calling e contexto longo que o tornaram viável para aplicações empresariais.
Onde a Zhipu realmente se diferencia é em geração multimodal. CogView, seu modelo de geração de imagem, foi um dos primeiros sistemas chineses de text-to-image a alcançar qualidade competitiva. CogVideo e seu sucessor CogVideoX avançaram para geração de vídeo com IA, produzindo resultados que se sustentavam contra Runway e Pika a uma fração do custo. Até 2025, o CogVideoX-5B havia se tornado um dos modelos open source de geração de vídeo mais capazes disponíveis, amplamente usado por pesquisadores e desenvolvedores que precisavam de capacidades de geração de vídeo sem pagar taxas por clipe via API. Essa amplitude multimodal — geração de texto, imagem, vídeo e código sob um único teto — dá à Zhipu uma história de plataforma integrada que poucos concorrentes conseguem igualar.
A Zhipu atraiu um who's who do investimento de tecnologia chinês. Uma Série B de US$ 341 milhões em 2023 foi seguida por rodadas adicionais que supostamente avaliaram a empresa em mais de US$ 3 bilhões até meados de 2024. Investidores incluem a gigante de redes sociais Meituan, a firma de semicondutores Zhongguancun Science City e múltiplos fundos apoiados pelo estado. O pedigree Tsinghua da Zhipu lhe dá uma vantagem particular em navegar as prioridades de Pequim. A empresa foi posicionada como uma campeã nacional no espaço de foundation models, ao lado do Ernie da Baidu e do Qwen da Alibaba, o que traz tanto recursos quanto expectativas.
A estratégia comercial da Zhipu centra-se em sua plataforma Zhipu Qingyan (BigModel), que oferece acesso via API a modelos GLM para clientes empresariais, junto com ferramentas de fine-tuning e um framework de construção de agentes. Têm sido particularmente agressivos no mercado empresarial chinês, mirando setores como finanças, educação e serviços governamentais onde preocupações de soberania de dados tornam provedores de IA estrangeiros uma não-opção. Para a comunidade internacional de IA, a Zhipu importa mais como fonte de modelos open source de alta qualidade — CogVideoX em particular encontrou um público global que se estende bem além das fronteiras da China.