色777狠狠综合秋免鲁丝,不卡专区在线,女厕盗摄一区二区三区

當甄嬛傳、讓子彈飛全都轉英文，會怎樣？

小紅書經常刷到這種視頻，然后英語就這么絲滑地經過我的腦子。

現在，AI 就可以搞定！就像這樣。

不僅符合原版的音色和情感，還能保證唇形同步。

很好，以后再不需要看小紅書麻煩配音老師來教我英語了（Doge）。

而這次出手的，正好是那個創造諸多魔性視頻的B 站。真是好你個 B 站。

他們發布的 TTS 模型 IndexTTS2，在社區引發不少的關注。

網友表示：已經迫不及待地想用它來做搞笑視頻了。

IndexTTS2：AI 配音無壓力

它最大的亮點，就在于在實現時長控制的同時，還能再現符合 Prompt 的情感特征。

它支持兩種生成方式。

一種是明確 token 數量，以精準控制時長。

比如原音頻是這樣：

要求替換成的文本是只有當科技為本地社群創造價值的時候，才真正有意義。

那么控制它的時長分別為原來的 0.75 倍、1 倍（原速）、1.25 倍。效果是這樣的。

另一種是無需手動輸入，自動生成語音，同時保留輸入提示的韻律特征。

比如生氣的情感。

指定替換文本：你在我們屋里走路的時候，發現了一條遙遠的路，這是不夠奇怪的。

此外還支持音頻和情緒表達獨立控制。

不同的音頻提示可以分別作為音色和情緒表達的參考，也可以用描述性的文本也能用來情緒參考，同時保持音色不變。

比如像「我感覺很沮喪」、「巨巨巨巨巨巨難過」、「有點快樂」……這種描述。

「巨巨巨巨巨巨難過」之后，聲音就變成了這樣。

結果他們使用常見測試集，包括 LibriSpeech-test-clean、SeedTTS test-zh、SeedTTS test-en 和 AIShell-1 test 對 IndexTTS2 模型以及其他代表性模型進行了評估，

可以看到，除了 AIShell-1 test 測試外，其他評測都實現了 SOTA。

在 AIShell-1 測試中，IndexTTS2 在 SS 方面僅落后于 Ground Truth 0.004，在 WER 方面僅比 IndexTTS 差 0.038%。

而在情感性能比較上，IndexTTS2 也實現了情感表達和文本準確性上面的雙重 SOTA。字詞錯誤率（WER）僅為 1.883%。

在時長控制的準確性上，可以看到指定市場的 Token 數錯誤均小于 0.02%。

此外，他們還進行了兩組消融實驗，以驗證各個模塊的貢獻：刪除 GPT 潛在表征；刪除 S2M 模塊。

GPT 潛在表征它在語音的發音和清晰度方面發揮了重要作用，刪除它會導致所有數據集上指標下降，

用 MaskGCT 的 S2A 模塊（針對離散聲標記）替換 S2M 模塊，結果發現在表明情感保真度和語音準確度都有所下降，以及合成質量上也有所下降。

這意味著，S2M 模塊大大提高了合成語音的保真度和感知自然度。

如何實現？

文本轉語音 ( TTS ) 模型通常分為自回歸系統和非自回歸系統。

雖然自回歸系統在語音自然度方面表現出一定優勢，但其逐個 token 的生成機制使其難以精確控制合成語音的時長。

這在視頻配音等需要嚴格音視頻同步的應用中是一個關鍵限制。

據介紹，IndexTTS2 是首個將精確時長控制和自然時長生成相結合的自回歸零樣本 TTS 模型。

在這之前，B 站團隊還曾發布過 1.0 和 1.5 版本。

IndexTTS2 由三個核心模塊組成：

文本到語義（T2S）、語義到語音（S2M）和 BigVGANv2 聲碼器。

T2S 使用源文本、風格提示、音色提示以及可選的語音 token 數字作為輸入，生成語義 token。

最后，BigVGANv2 將旋律譜圖轉換為目標語音波形。

具體看 T2S 任務，團隊將其表述為自回歸語音 Token 預測任務。

他們采用與傳統大語言模型相同的訓練方法，即預測下一個 Token。不過不同的是，他們引入了兩個關鍵創新：時常控制和情感控制。

情感適配器（紅色虛線）用于從風格提示中提取情感特征，然后將其作為文本到語義流程的輸入，以重建情感。

在第一階段，團隊使用基于 Conformer 的情緒感知器條件器（emo perceiverconditioner），它用于從風格提示中提取情緒嵌入，專門對情緒數據進行訓練。

為了將特定情感信息與說話者的相關屬性（如口音、節奏）區分開來，團隊還引入了梯度反轉層。

在訓練過程中，風格提示源于真實語音；在推理過程中，風格提示可被情感參考音頻所替代，該音頻可能來自不同的說話者。

再來看基于流匹配的 S2M 模塊，它結合 GPT 潛在表征來提升語音穩定性。

這一過程需以音色參考音頻為條件，并融合 T2S 模塊生成的語義編碼。針對深度情感演繹時易出現的發音含糊問題，本階段采用雙重解決策略：其一是對 BERT 模型提取的文本表征進行幀級對齊后作為輔助輸入；其二是將 T2S 模塊的 GPT 潛在特征作為補充信息。

代號 H？

不過話說回來，最近 B 站被曝出正在加速推進視頻播客戰略。

什么意思呢？

就是用一種「能看」就不用「聽」的播客。

與此同時，內部還啟動了代號為「代號 H」的 AI 創作工具的同步研發。

沒準兒，這個 IndexTTS2 就是他們代號 H 中的一環呢。

參考鏈接：

https://www.reddit.com/r/LocalLLaMA/comments/1lyy39n/indextts2_the_most_realistic_and_expressive/

https://arxiv.org/abs/2506.21619

https://arxiv.org/abs/2502.05512

https://index-tts.github.io/index-tts2.github.io/

https://github.com/index-tts/index-tts2.github.io

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

專屬 AI 產品從業者的實名社群，只聊 AI 產品最落地的真問題 掃碼添加小助手，發送「姓名 + 公司 + 職位」申請入群～

進群后，你將直接獲得：

最新最專業的 AI 產品信息及分析

不定期發放的熱門產品內測碼

內部專屬內容與專業討論

點亮星標

科技前沿進展每日見

精品香蕉一区二区三区,国产精品电影,性xxxfreexxxx性欧美,亚洲自拍的二区三区

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

B 站下場自研 AI 配音！純正美音版甄嬛傳流出，再不用看小紅書學英語了（Doge）

宙世代

一起剪

相關閱讀

「煙山科技」完成近億元Pre-A輪融資，加速MicroLED芯片研發和量產

黃仁勛：世界上哪家手機能比華為更先進 輕視華為的人極其天真

黃仁勛稱AI讓《黑神話：悟空》如此美麗 曾評價是世界第一游戲

京東回應外賣取消超時20分鐘免單：外賣準時率已大幅提升

15系列家族唯一天璣旗艦！小米15T Pro現身

華為三款新平板即將發布 自研麒麟9020A芯片 支持衛星通信

微短劇“質變”奇點：精品化浪潮托起百億新經濟

快樂猴超市進擊硬折扣，美團放不下“大超市”的夢想

一天1美元！馬斯克發布AI女友：剛上線就“少兒不宜”

整體性能提升30%的國產AI數據庫一體機發布，人大教授：中國數據庫發展沒有捷徑

NVIDIA H20芯片剛解禁就賣爆了！曝騰訊、字節跳動等企業爭相下單采購

斥資25億元！韓國計劃發展iLED顯示技術：使用壽命、亮度優勢顯著

英偉達H20重回市場，但中國芯片過去三個月已爆單

驚人的94%份額！AMD CPU德國銷量12倍于Intel：AM4超全系總和

NVIDIA準備中國特供專業顯卡RTX 6000D：今年要賺100億美元

最新評論

量子位

熱門推薦

黃仁勛：世界上哪家手機能比華為更先進輕視華為的人極其天真

黃仁勛稱AI讓《黑神話：悟空》如此美麗曾評價是世界第一游戲

華為三款新平板即將發布自研麒麟9020A芯片支持衛星通信