Resemble AI 於 2019 年由 Zohaib Ahmed 在加拿大多倫多創立。Ahmed 是一名曾在企業公司擔任軟體工程師的專業人士,他在實驗早期的深度學習文字轉語音(TTS)模型後,對神經聲音合成的潛力產生了濃厚興趣。創立的核心洞察是,聲音克隆——從相對較短的音訊樣本中建立特定個人聲音的合成複製品——即將變得極其容易取得,因此需要有人同時開發相關工具與安全機制。從早期階段開始,Resemble 就定位自己為一家認真看待聲音 AI 具有雙用途性質的公司。
Resemble 的核心產品讓用戶僅需數分鐘的錄音即可建立自定義的 AI 聲音。其技術流程涵蓋完整的技術棧:聲音克隆、文字轉語音合成、語音轉語音轉換,以及延遲足夠低以支援即時應用的實時聲音生成。自推出以來,品質已大幅提升——他們最新的模型在許多情況下,其輸出在盲測中與人類語音無異。他們同時提供一個基於網頁的創作平台供非技術用戶使用,以及一個完整的 API 供開發者將聲音整合至產品中。Localize 是他們的語音轉語音工具,讓內容創作者可以在保留原說話者聲音特徵的同時,將音訊翻譯成其他語言,此功能在媒體、娛樂與線上教育領域已獲得廣泛應用。
真正讓 Resemble 在聲音 AI 領域脫穎而出的是,他們早在初期就持續投入深度偽造檢測與聲音驗證技術。2022 年,他們推出了 Resemble Detect,這是一個經過訓練的神經網絡,用於區分 AI 生成的語音與真實人類語音。他們也率先開發了神經音頻水印技術——在生成的語音中嵌入無法察覺的識別碼,以便後續檢測以驗證來源。這並非對應某種公關危機的應對措施,而是從產品藍圖一開始就內建的安全機制。在這個產業中,許多競爭對手因技術被用於詐騙、冒充與非自願內容而蒙羞,Resemble 主動出擊的安全策略已成為真正的競爭優勢,特別是在需要展示負責任 AI 使用的企業客戶中。
Resemble 已籌集約 1,300 萬美元資金,與部分聲音 AI 競爭對手相比規模較小,但該公司資金運用效率高且專注。其客戶群涵蓋需要動態 NPC 對話的遊戲工作室、進行大規模本地化的媒體公司、生成面向患者的語音的醫療機構,以及建立品牌聲音體驗的客服中心。總部設於加拿大——特別是多倫多,這座城市已悄然成為全球機器學習研究的頂尖人才庫——對招募人才來說是一個戰略優勢。他們在品質與開發者體驗方面與 ElevenLabs 競爭,在客製化方面與 PlayHT 競爭,在企業可靠性方面則與 Amazon Polly 和 Google TTS 競爭。
Resemble 正幫助產業回答的更廣泛問題是:誰擁有聲音?當合成語音逐漸商品化,證明聲音是經同意生成、攜帶來源元數據,以及能偵測未經授權克隆的能力,將不再只是功能,而是法規必要條件。Resemble 的押注是,那些將安全視為後補措施的聲音 AI 公司,最終將在面對監管機構與訴訟壓力時被迫後補強化安全機制,而那些從一開始就內建安全機制的公司,將早已達到市場所要求的終點。