精品香蕉一区二区三区,国产精品电影,性xxxfreexxxx性欧美,亚洲自拍的二区三区

關于ZAKER 合作
量子位 17分鐘前

完全透明開源的共情語音大模型,三階段訓練,四大模塊實現端到端對話

GPT-4o、Gemini 這些頂級語音模型雖然展現了驚人的共情對話能力,但它們的技術體系完全閉源。

現在,紫東太初團隊聯合長城汽車 AI Lab 直接把整個技術棧都開源了,推出完全透明開源的端到端共情語音語言大模型 OpenS2S。

OpenS2S 的核心在于提供一個高效、低成本構建共情語音系統的新范式。

它不僅繼承了團隊在語音到文本共情模型 BLSP-Emo 上的技術積累,更引入了流式交錯解碼架構,實現了低延遲的實時語音生成。OpenS2S 提出自動化數據生成方法,結合大語言模型與可控文本到語音生成技術,構建多說話者、多情感的高質量共情語音訓練語料。

最為重要的是,團隊開源了構建 OpenS2S 所需的所有資源,包括:訓練與微調數據集、數據構建代碼、模型權重以及預訓練和微調代碼,致力于賦能更廣泛的研究社區,推動共情語音系統領域的創新與發展。

表 1 語音語言大模型的開源程度核心貢獻

1. 模型的構建與訓練

OpenS2S 基于先進的框架構建了高效的端到端語音到語音共情對話模型,并使用高質量數據進行訓練。該模型能夠為人類與人工智能提供更便捷、更自然的交互方式。

2. 共情語音指令數據集的自動化構建

OpenS2S 提出了一種自動化的數據增強方法,融合了大語言模型(LLMs)與文本到語音(TTS)技術的優勢,專為共情語音對話而設計。借助 LLMs 生成豐富多樣的用戶提問與共情回應,再通過語音克隆技術確保說話者身份的多樣性。更重要的是,該技術實現了對語音情感表達的精準控制,能夠以極低的人力成本,構建出內容豐富、高質量的訓練數據集,為共情語音系統的發展注入強大動力。

3. 全面開源發布

為促進學術合作與推動共情大規模語音語言模型(LSLMs)領域的快速創新,OpenS2S 完整開源了所有核心資源。包括模型權重、數據集構建代碼、預訓練與微調代碼、評估工具及合成數據集,致力于為研究社區提供完全透明、可復現的研究基礎,助力共情語音技術的持續突破。

技術方案

OpenS2S 采用模塊化設計,包含四大核心組件:

- 音頻編碼器:基于 Qwen2-Audio 編碼器,高效提取音頻波形中的語義與非語言特征。

- 指令遵循大語言模型(LLM):選用 Qwen3-8B-Instruct,發揮其強大的文本理解與處理能力,實現精準指令解析。

- 流式語音解碼器:借鑒 Minmo 與 LLaMA-Omni2,采用監督語義語音分詞器將語音響應離散化為 token,隨后通過自回歸文本到語音模型生成連續語音 token,實現低延遲流式生成。

- Token2Wav 解碼器:將生成的語音 token 轉換為最終語音波形,分塊感知因果流匹配模型及 HiFi-GAN 聲碼器均采用 GLM-4-Voice 中的預訓練組件,保證語音質量自然流暢。

** △圖 1 OpenS2S 架構示意圖

數據構建過程:

首先,利用強大的 LLMs 生成多樣化且富有共情色彩的用戶查詢及其對應的回應,確保了對話內容的豐富性和真實性。

接著,通過引入語音克隆技術,進一步豐富了數據集的語音多樣性,使其能夠模擬不同說話者的聲音。

更進一步,借助 InstructTTS 技術,模型能夠對語音回應中的情感表達進行精確控制,使合成的語音不僅語義連貫,更能在情感層面自然地傳遞共情。

通過這一自動化流程,OpenS2S 實現了以極低的成本合成出大量高質量、具備語言多樣性的共情語音對話數據,并且僅需少量人工監督,從而為模型學習富有共情的人機交互提供了堅實且可擴展的訓練基礎。

圖 2 共情語音指令數據集構建的自動化流程

訓練流程分為三階段:

語音理解預訓練、語音生成預訓練及共情語音指令微調,全面提升模型對語音語義和非語言線索的感知能力,最終實現自然且富有共情的語音響應生成。

** △圖 3 OpenS2S 訓練過程示意圖實驗結果

端到端語音到語音共情交互相對難以評測,按照兩階段的方式,先進行語音到文本的評測,再展示語音到語音的共情交互樣例。

語音到文本評測能夠驗證模型的語音指令遵循能力、語義和情感理解能力。在語音到文本的交互能力評估中,OpenS2S 在 VoiceBench 的四個子集上取得了優異成績,其表現僅次于 Kimi-Audio(基于超大規模語音數據訓練),優于其他所有模型。

這表明 OpenS2S 擁有強大的語音交互能力,能夠高效理解用戶的語音指令輸入。此外,在 URO-Bench 的共情評估子集上,盡管訓練數據量遠少于現有最先進模型,OpenS2S 依然取得了很好的表現。

這不僅驗證了 OpenS2S 的共情交互能力,也充分體現了其創新共情語音對話數據生成方法的高質量和有效性。

表 2 OpenS2S 與其他模型在語音到文本交互基準測試中的性能對比。

在 GitHub 頁面上還展示了若干語音到語音的共情對話樣例。從例子中可以深切感受到模型對于用戶的精準理解和共情能力。

論文地址:https://arxiv.org/pdf/2507.05177

Demo 樣例地址:https://casia-lm.github.io/OpenS2S

代碼地址:https://github.com/CASIA-LM/OpenS2S

數據地址:https://huggingface.co/datasets/CASIA-LM/OpenS2S_Datasets

模型地址:https://huggingface.co/CASIA-LM/OpenS2S

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

專屬 AI 產品從業者的實名社群,只聊 AI 產品最落地的真問題 掃碼添加小助手,發送「姓名 + 公司 + 職位」申請入群~

進群后,你將直接獲得:

最新最專業的 AI 產品信息及分析

不定期發放的熱門產品內測碼

內部專屬內容與專業討論

點亮星標

科技前沿進展每日見

相關標簽
主站蜘蛛池模板: 满洲里市| 涟水县| 灵丘县| 许昌县| 隆德县| 乐安县| 绥宁县| 龙江县| 泽普县| 开封市| 江达县| 赣州市| 五莲县| 大足县| 黔江区| 昆山市| 望江县| 涞水县| 水富县| 永定县| 江达县| 南汇区| 西和县| 恩平市| 伊宁县| 凤翔县| 石首市| 普格县| 互助| 邯郸市| 肥西县| 枣强县| 亳州市| 江山市| 井研县| 泗阳县| 肥乡县| 南城县| 上思县| 霍林郭勒市| 太仆寺旗|