當甄嬛傳、讓子彈飛全都轉英文,會怎樣?
小紅書經常刷到這種視頻,然后英語就這么絲滑地經過我的腦子。
現在,AI 就可以搞定!就像這樣。
不僅符合原版的音色和情感,還能保證唇形同步。
很好, 以后再不需要看小紅書麻煩配音老師來教我英語了(Doge)。
他們發布的 TTS 模型 IndexTTS2,在社區引發不少的關注。
它最大的亮點,就在于在實現時長控制的同時,還能再現符合 Prompt 的情感特征。
它支持兩種生成方式。
一種是明確 token 數量,以精準控制時長。
比如原音頻是這樣:
要求替換成的文本是只有當科技為本地社群創造價值的時候,才真正有意義。
那么控制它的時長分別為原來的 0.75 倍、1 倍(原速)、1.25 倍。效果是這樣的。
另一種是無需手動輸入,自動生成語音,同時保留輸入提示的韻律特征。
比如生氣的情感。
指定替換文本:你在我們屋里走路的時候,發現了一條遙遠的路,這是不夠奇怪的。
此外還支持音頻和情緒表達獨立控制。
不同的音頻提示可以分別作為音色和情緒表達的參考,也可以用描述性的文本也能用來情緒參考,同時保持音色不變。
比如像「我感覺很沮喪」、「巨巨巨巨巨巨難過」、「有點快樂」……這種描述。
「巨巨巨巨巨巨難過」之后,聲音就變成了這樣。
結果他們使用常見測試集,包括 LibriSpeech-test-clean、SeedTTS test-zh、SeedTTS test-en 和 AIShell-1 test 對 IndexTTS2 模型以及其他代表性模型進行了評估,
可以看到,除了 AIShell-1 test 測試外,其他評測都實現了 SOTA。
在 AIShell-1 測試中,IndexTTS2 在 SS 方面僅落后于 Ground Truth 0.004,在 WER 方面僅比 IndexTTS 差 0.038%。
GPT 潛在表征它在語音的發音和清晰度方面發揮了重要作用,刪除它會導致所有數據集上指標下降,
用 MaskGCT 的 S2A 模塊(針對離散聲標記)替換 S2M 模塊,結果發現在表明情感保真度和語音準確度都有所下降,以及合成質量上也有所下降。
這意味著,S2M 模塊大大提高了合成語音的保真度和感知自然度。
文本轉語音 ( TTS ) 模型通常分為自回歸系統和非自回歸系統。
雖然自回歸系統在語音自然度方面表現出一定優勢,但其逐個 token 的生成機制使其難以精確控制合成語音的時長。
這在視頻配音等需要嚴格音視頻同步的應用中是一個關鍵限制。
據介紹,IndexTTS2 是首個將精確時長控制和自然時長生成相結合的自回歸零樣本 TTS 模型。
文本到語義(T2S)、語義到語音(S2M)和 BigVGANv2 聲碼器。
最后,BigVGANv2 將旋律譜圖轉換為目標語音波形。
具體看 T2S 任務,團隊將其表述為自回歸語音 Token 預測任務。
情感適配器(紅色虛線)用于從風格提示中提取情感特征,然后將其作為文本到語義流程的輸入,以重建情感。
在第一階段,團隊使用基于 Conformer 的情緒感知器條件器(emo perceiverconditioner),它用于從風格提示中提取情緒嵌入,專門對情緒數據進行訓練。
為了將特定情感信息與說話者的相關屬性(如口音、節奏)區分開來,團隊還引入了梯度反轉層。
在訓練過程中,風格提示源于真實語音;在推理過程中,風格提示可被情感參考音頻所替代,該音頻可能來自不同的說話者。
再來看基于流匹配的 S2M 模塊,它結合 GPT 潛在表征來提升語音穩定性。
代號 H?
不過話說回來,最近 B 站被曝出正在加速推進視頻播客戰略。
什么意思呢?
就是用一種「能看」就不用「聽」的播客。
與此同時,內部還啟動了代號為「代號 H」的 AI 創作工具的同步研發。
沒準兒,這個 IndexTTS2 就是他們代號 H 中的一環呢。
參考鏈接:
https://www.reddit.com/r/LocalLLaMA/comments/1lyy39n/indextts2_the_most_realistic_and_expressive/
https://arxiv.org/abs/2506.21619
https://arxiv.org/abs/2502.05512
https://index-tts.github.io/index-tts2.github.io/
https://github.com/index-tts/index-tts2.github.io
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
專屬 AI 產品從業者的實名社群,只聊 AI 產品最落地的真問題 掃碼添加小助手,發送「姓名 + 公司 + 職位」申請入群~
進群后,你將直接獲得:
最新最專業的 AI 產品信息及分析
不定期發放的熱門產品內測碼
內部專屬內容與專業討論
點亮星標
科技前沿進展每日見