A ElevenLabs foi fundada em 2022 por Piotr Dabkowski e Mati Staniszewski, dois engenheiros poloneses que se conheceram em um meetup de machine learning e se uniram por uma frustração compartilhada: dublagem em filmes e TV era terrível. Dabkowski, que havia feito pesquisa no Google, trouxe expertise técnica profunda em áudio generativo; Staniszewski, um ex-estrategista da Palantir, trouxe o senso de negócios. Seu pitch era simples — vozes de IA que realmente soam humanas — e investidores compraram rápido. A empresa levantou um pre-seed de US$ 1 milhão, depois uma Série B de US$ 80 milhões liderada pela Andreessen Horowitz e com participação da Sequoia, Smash Capital e outros, atingindo uma avaliação de US$ 1,1 bilhão no início de 2024. Em janeiro de 2025, haviam levantado uma Série C de US$ 180 milhões a uma avaliação reportada de US$ 3,3 bilhões, tornando-os uma das empresas mais rápidas na história da IA a alcançar essa marca.
O que diferenciou a ElevenLabs de ferramentas anteriores de text-to-speech foi qualidade que cruzou o vale da estranheza. Seu modelo Multilingual v2, lançado em 2023, podia gerar fala em 29 idiomas com prosódia natural, emoção e ritmo que era genuinamente difícil de distinguir de uma gravação humana. Clonagem de voz — onde o sistema aprende a replicar a voz de uma pessoa específica a partir de uma amostra curta de áudio — se tornou sua funcionalidade assinatura. Profissionais a usavam para clonar suas próprias vozes para narração de audiobooks, criação de conteúdo e dublagem. O marketplace Voice Library permitia que usuários compartilhassem e monetizassem vozes customizadas, criando um ecossistema em torno da tecnologia. Sua API de IA conversacional em tempo real, lançada depois, permitiu que desenvolvedores construíssem agentes de voz que podiam manter conversas telefônicas naturais, abrindo aplicações em atendimento ao cliente, saúde e educação.
Com grande poder veio controvérsia previsível. Tecnologia de clonagem de voz é inerentemente de uso duplo — a mesma ferramenta que permite a um autor narrar seu próprio audiobook sem passar horas em estúdio também permite que um mal-intencionado se passe por alguém para fraude ou desinformação. A ElevenLabs enfrentou críticas iniciais quando vozes clonadas de celebridades surgiram online, e a empresa respondeu endurecendo seus requisitos de verificação, adicionando marca d'água ao áudio gerado através do AI Speech Classifier e implementando uma lista de vozes protegidas. Também aderiram ao padrão C2PA para proveniência de conteúdo. Essas medidas ajudaram, mas a tensão fundamental permanece: quanto melhor a tecnologia fica, mais difícil se torna policiar o uso indevido, e a ElevenLabs está comprometida em torná-la o melhor possível.
A ElevenLabs opera um negócio de API freemium. Usuários gratuitos recebem caracteres limitados por mês; planos pagos escalam de criadores individuais até contratos empresariais. O preço é direto e amigável para desenvolvedores, o que os ajudou a construir uma grande comunidade rapidamente. Também lançaram produtos standalone como o app ElevenLabs Reader (para ouvir artigos e documentos) e um estúdio de dublagem para localização de vídeo. Concorrentes incluem Amazon Polly, Google Cloud TTS, Microsoft Azure Speech e entrantes mais novos como PlayHT e Cartesia, mas a ElevenLabs manteve uma liderança de qualidade que mantém desenvolvedores voltando. A empresa também expandiu agressivamente para geração de música e efeitos sonoros, sinalizando a ambição de dominar todo o áudio generativo, não apenas fala.
No início de 2026, a ElevenLabs é a escolha padrão para desenvolvedores construindo aplicações habilitadas por voz. Sua tecnologia sustenta milhares de apps, podcasts, audiobooks e ferramentas empresariais. A verdadeira questão é se conseguem manter a liderança conforme os grandes provedores de nuvem e alternativas open-source fecham a lacuna de qualidade, e se o ambiente regulatório em torno de mídia sintética criará obstáculos ou fossos. Por enquanto, eles são a empresa que provou que vozes de IA podiam ser boas o suficiente para substituir gravações humanas na maioria dos contextos — um marco que parecia estar a anos de distância até que eles fizeram acontecer.