精品香蕉一区二区三区,国产精品电影,性xxxfreexxxx性欧美,亚洲自拍的二区三区

關于ZAKER 合作
量子位 前天

B 站下場自研 AI 配音!純正美音版甄嬛傳流出,再不用看小紅書學英語了(Doge)

當甄嬛傳、讓子彈飛全都轉英文,會怎樣?

小紅書經常刷到這種視頻,然后英語就這么絲滑地經過我的腦子。

現在,AI 就可以搞定!就像這樣。

不僅符合原版的音色和情感,還能保證唇形同步。

很好, 以后再不需要看小紅書麻煩配音老師來教我英語了(Doge)。

而這次出手的,正好是那個創造諸多魔性視頻的B 站。真是好你個 B 站。

他們發布的 TTS 模型 IndexTTS2,在社區引發不少的關注。

網友表示:已經迫不及待地想用它來做搞笑視頻了。

IndexTTS2:AI 配音無壓力

它最大的亮點,就在于在實現時長控制的同時,還能再現符合 Prompt 的情感特征。

它支持兩種生成方式。

一種是明確 token 數量,以精準控制時長。

比如原音頻是這樣:

要求替換成的文本是只有當科技為本地社群創造價值的時候,才真正有意義。

那么控制它的時長分別為原來的 0.75 倍、1 倍(原速)、1.25 倍。效果是這樣的。

另一種是無需手動輸入,自動生成語音,同時保留輸入提示的韻律特征。

比如生氣的情感。

指定替換文本:你在我們屋里走路的時候,發現了一條遙遠的路,這是不夠奇怪的。

此外還支持音頻和情緒表達獨立控制。

不同的音頻提示可以分別作為音色和情緒表達的參考,也可以用描述性的文本也能用來情緒參考,同時保持音色不變。

比如像「我感覺很沮喪」、「巨巨巨巨巨巨難過」、「有點快樂」……這種描述。

「巨巨巨巨巨巨難過」之后,聲音就變成了這樣。

結果他們使用常見測試集,包括 LibriSpeech-test-clean、SeedTTS test-zh、SeedTTS test-en 和 AIShell-1 test 對 IndexTTS2 模型以及其他代表性模型進行了評估,

可以看到,除了 AIShell-1 test 測試外,其他評測都實現了 SOTA。

在 AIShell-1 測試中,IndexTTS2 在 SS 方面僅落后于 Ground Truth 0.004,在 WER 方面僅比 IndexTTS 差 0.038%。

而在情感性能比較上,IndexTTS2 也實現了情感表達和文本準確性上面的雙重 SOTA。字詞錯誤率(WER)僅為 1.883%。

在時長控制的準確性上,可以看到指定市場的 Token 數錯誤均小于 0.02%。

此外,他們還進行了兩組消融實驗,以驗證各個模塊的貢獻:刪除 GPT 潛在表征;刪除 S2M 模塊。

GPT 潛在表征它在語音的發音和清晰度方面發揮了重要作用,刪除它會導致所有數據集上指標下降,

用 MaskGCT 的 S2A 模塊(針對離散聲標記)替換 S2M 模塊,結果發現在表明情感保真度和語音準確度都有所下降,以及合成質量上也有所下降。

這意味著,S2M 模塊大大提高了合成語音的保真度和感知自然度。

如何實現?

文本轉語音 ( TTS ) 模型通常分為自回歸系統和非自回歸系統。

雖然自回歸系統在語音自然度方面表現出一定優勢,但其逐個 token 的生成機制使其難以精確控制合成語音的時長。

這在視頻配音等需要嚴格音視頻同步的應用中是一個關鍵限制。

據介紹,IndexTTS2 是首個將精確時長控制和自然時長生成相結合的自回歸零樣本 TTS 模型。

在這之前,B 站團隊還曾發布過 1.0 和 1.5 版本。

IndexTTS2 由三個核心模塊組成:

文本到語義(T2S)、語義到語音(S2M)和 BigVGANv2 聲碼器。

T2S 使用源文本、風格提示、音色提示以及可選的語音 token 數字作為輸入,生成語義 token。

最后,BigVGANv2 將旋律譜圖轉換為目標語音波形。

具體看 T2S 任務,團隊將其表述為自回歸語音 Token 預測任務。

他們采用與傳統大語言模型相同的訓練方法,即預測下一個 Token。不過不同的是,他們引入了兩個關鍵創新:時常控制和情感控制

情感適配器(紅色虛線)用于從風格提示中提取情感特征,然后將其作為文本到語義流程的輸入,以重建情感。

在第一階段,團隊使用基于 Conformer 的情緒感知器條件器(emo perceiverconditioner),它用于從風格提示中提取情緒嵌入,專門對情緒數據進行訓練。

為了將特定情感信息與說話者的相關屬性(如口音、節奏)區分開來,團隊還引入了梯度反轉層。

在訓練過程中,風格提示源于真實語音;在推理過程中,風格提示可被情感參考音頻所替代,該音頻可能來自不同的說話者。

再來看基于流匹配的 S2M 模塊,它結合 GPT 潛在表征來提升語音穩定性。

這一過程需以音色參考音頻為條件,并融合 T2S 模塊生成的語義編碼。針對深度情感演繹時易出現的發音含糊問題,本階段采用雙重解決策略:其一是對 BERT 模型提取的文本表征進行幀級對齊后作為輔助輸入;其二是將 T2S 模塊的 GPT 潛在特征作為補充信息。

代號 H?

不過話說回來,最近 B 站被曝出正在加速推進視頻播客戰略。

什么意思呢?

就是用一種「能看」就不用「聽」的播客。

與此同時,內部還啟動了代號為「代號 H」的 AI 創作工具的同步研發。

沒準兒,這個 IndexTTS2 就是他們代號 H 中的一環呢。

參考鏈接:

https://www.reddit.com/r/LocalLLaMA/comments/1lyy39n/indextts2_the_most_realistic_and_expressive/

https://arxiv.org/abs/2506.21619

https://arxiv.org/abs/2502.05512

https://index-tts.github.io/index-tts2.github.io/

https://github.com/index-tts/index-tts2.github.io

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

專屬 AI 產品從業者的實名社群,只聊 AI 產品最落地的真問題 掃碼添加小助手,發送「姓名 + 公司 + 職位」申請入群~

進群后,你將直接獲得:

最新最專業的 AI 產品信息及分析

不定期發放的熱門產品內測碼

內部專屬內容與專業討論

點亮星標

科技前沿進展每日見

相關標簽

相關閱讀

最新評論

沒有更多評論了
主站蜘蛛池模板: 麻城市| 江永县| 新晃| 西藏| 丁青县| 荣成市| 乌兰县| 丰原市| 九江县| 疏勒县| 肃北| 荆州市| 措勤县| 原阳县| 嘉禾县| 华蓥市| 柳江县| 常州市| 洪洞县| 土默特右旗| 萝北县| 霍城县| 西和县| 封开县| 吐鲁番市| 天门市| 和政县| 布尔津县| 玉树县| 甘谷县| 马尔康县| 高雄市| 紫云| 永顺县| 海盐县| 遵化市| 华池县| 岢岚县| 天祝| 温州市| 甘德县|