ElevenLabs fue fundada en 2022 por Piotr Dabkowski y Mati Staniszewski, dos ingenieros polacos que se conocieron en un meetup de machine learning y conectaron por una frustración compartida: el doblaje en películas y TV era terrible. Dabkowski, quien había investigado en Google, aportó profundas habilidades técnicas en audio generativo; Staniszewski, un ex estratega de Palantir, aportó el sentido comercial. Su propuesta era simple — voces de IA que realmente suenen humanas — y los inversores la compraron rápido. La empresa recaudó $1 millón en pre-seed, luego una Serie B de $80 millones liderada por Andreessen Horowitz y con participación de Sequoia, Smash Capital y otros, alcanzando una valoración de $1.1 mil millones para principios de 2024. Para enero de 2025, habían recaudado una Serie C de $180 millones a una valoración reportada de $3.3 mil millones, haciéndola una de las empresas más rápidas en la historia de IA en alcanzar esa marca.
Lo que diferenció a ElevenLabs de herramientas anteriores de texto a voz fue la calidad que cruzó el valle inquietante. Su modelo Multilingual v2, lanzado en 2023, podía generar habla en 29 idiomas con prosodia natural, emoción y ritmo que era genuinamente difícil de distinguir de una grabación humana. La clonación de voz — donde el sistema aprende a replicar la voz de una persona específica a partir de una muestra corta de audio — se convirtió en su función insignia. Los profesionales la usaron para clonar sus propias voces para narración de audiolibros, creación de contenido y doblaje. El marketplace Voice Library permitió a los usuarios compartir y monetizar voces personalizadas, creando un ecosistema alrededor de la tecnología. Su API de IA conversacional en tiempo real, lanzada después, permitió a los desarrolladores construir agentes de voz que podían mantener conversaciones telefónicas naturales, abriendo aplicaciones de servicio al cliente, salud y educación.
Con gran poder vino una controversia predecible. La tecnología de clonación de voz es inherentemente de uso dual — la misma herramienta que permite a un autor narrar su propio audiolibro sin pasar horas en un estudio también permite a un actor malicioso suplantar a alguien para fraude o desinformación. ElevenLabs enfrentó críticas tempranas cuando voces clonadas de celebridades aparecieron en línea, y la empresa respondió endureciendo sus requisitos de verificación, añadiendo marcas de agua al audio generado a través de su AI Speech Classifier, e implementando una lista de voces protegidas. También se unieron al estándar C2PA para procedencia de contenido. Estas medidas ayudaron, pero la tensión fundamental permanece: cuanto mejor se vuelve la tecnología, más difícil se hace vigilar el mal uso, y ElevenLabs está comprometido a hacerla lo mejor posible.
ElevenLabs opera un negocio de API freemium. Los usuarios gratuitos obtienen caracteres limitados por mes; los planes de pago escalan desde creadores individuales hasta contratos empresariales. Los precios son directos y amigables para desarrolladores, lo que les ayudó a construir una gran comunidad rápidamente. También lanzaron productos independientes como la app ElevenLabs Reader (para escuchar artículos y documentos) y un estudio de doblaje para localización de video. Los competidores incluyen Amazon Polly, Google Cloud TTS, Microsoft Azure Speech, y participantes más nuevos como PlayHT y Cartesia, pero ElevenLabs ha mantenido una ventaja de calidad que hace que los desarrolladores regresen. La empresa también se ha expandido agresivamente en generación de música y efectos de sonido, señalando una ambición de poseer todo el audio generativo, no solo el habla.
A principios de 2026, ElevenLabs es la elección predeterminada para desarrolladores que construyen aplicaciones habilitadas por voz. Su tecnología sustenta miles de apps, podcasts, audiolibros y herramientas empresariales. La pregunta real es si pueden mantener su ventaja a medida que los grandes proveedores de nube y las alternativas de código abierto cierran la brecha de calidad, y si el entorno regulatorio alrededor de los medios sintéticos creará vientos en contra o fosos. Por ahora, son la empresa que demostró que las voces de IA podían ser lo suficientemente buenas como para reemplazar grabaciones humanas en la mayoría de los contextos — un hito que parecía a años de distancia hasta que ellos lo hicieron realidad.