ElevenLabs 由波兰工程师 Piotr Dabkowski 和 Mati Staniszewski 于 2022 年创立。两人在一次机器学习聚会上相识,因共同对电影和电视配音效果糟糕的烦恼而结下深厚友谊。曾于谷歌从事研究的 Dabkowski 带来了生成式音频领域的深厚技术功底,而前 Palantir 战略顾问 Staniszewski 则带来了商业洞察力。他们的理念很简单——真正听起来像人类的 AI 语音——投资者迅速买账。公司先获得 100 万美元的种子轮融资,随后由安德森·霍罗维茨领投,Sequoia、Smash Capital 等机构跟投完成 8000 万美元的 B 轮融资,估值在 2024 年初达到 11 亿美元。到 2025 年 1 月,他们又以 33 亿美元估值完成 1.8 亿美元的 C 轮融资,成为 AI 历史上最快达到该估值的公司之一。
ElevenLabs 与早期文本转语音工具的不同之处在于其质量跨越了恐怖谷理论。2023 年发布的多语言 v2 模型,可在 29 种语言中生成具有自然语调、情感和节奏的语音,与真人录音难以区分。声音克隆——系统通过短音频样本学习复制特定人物声音——成为其标志性功能。专业人士用它来克隆自己的声音用于有声书录制、内容创作和配音。声音库市场让用户分享并变现自定义声音,围绕该技术形成了生态系统。随后推出的实时对话式 AI API,使开发者能够构建能进行自然电话对话的语音代理,开启了客户服务、医疗和教育等领域的应用。
强大的技术必然带来可预见的争议。声音克隆技术本质上是双重用途——既能帮助作者无需在录音棚耗费数小时即可录制自己的有声书,也可能被不法分子用于冒充他人实施诈骗或制造虚假信息。当名人被克隆的声音在网上传播时,ElevenLabs 遭遇早期批评,公司随即收紧验证要求,通过 AI 语音分类器为生成的音频添加水印,并建立禁止克隆的受保护声音名单。他们还加入了 C2PA 内容溯源标准。这些措施有一定效果,但根本矛盾依然存在:技术越先进,越难监管滥用,而 ElevenLabs 坚持让技术尽可能完善。
ElevenLabs 采用免费加付费的 API 商业模式。免费用户每月有字符数限制;付费计划从个人创作者扩展到企业级合同。定价简单且开发者友好,帮助他们迅速建立庞大社区。他们还推出了独立产品,如 ElevenLabs Reader 应用(用于收听文章和文档)和视频本地化配音工作室。竞争对手包括 Amazon Polly、Google Cloud TTS、Microsoft Azure Speech 以及 PlayHT 和 Cartesia 等新进入者,但 ElevenLabs 保持了质量优势,持续吸引开发者。公司还积极拓展音乐和音效生成领域,显示出拥有全部生成式音频技术的雄心,而不仅仅是语音。
截至 2026 年初,ElevenLabs 是开发语音应用的首选。其技术支撑了数千款应用、播客、有声书和企业工具。真正的疑问在于,当大型云服务商和开源替代品缩小质量差距时,他们能否维持领先地位,以及合成媒体的监管环境会成为阻力还是护城河。目前,他们是证明 AI 语音在多数场景下足以替代真人录音的公司——这一曾被认为遥不可及的里程碑,他们已成功实现。