精品香蕉一区二区三区,国产精品电影,性xxxfreexxxx性欧美,亚洲自拍的二区三区

量子位 17分鐘前

完全透明開源的共情語音大模型，三階段訓練，四大模塊實現端到端對話

GPT-4o、Gemini 這些頂級語音模型雖然展現了驚人的共情對話能力，但它們的技術體系完全閉源。

現在，紫東太初團隊聯合長城汽車 AI Lab 直接把整個技術棧都開源了，推出完全透明開源的端到端共情語音語言大模型 OpenS2S。

OpenS2S 的核心在于提供一個高效、低成本構建共情語音系統的新范式。

它不僅繼承了團隊在語音到文本共情模型 BLSP-Emo 上的技術積累，更引入了流式交錯解碼架構，實現了低延遲的實時語音生成。OpenS2S 提出自動化數據生成方法，結合大語言模型與可控文本到語音生成技術，構建多說話者、多情感的高質量共情語音訓練語料。

最為重要的是，團隊開源了構建 OpenS2S 所需的所有資源，包括：訓練與微調數據集、數據構建代碼、模型權重以及預訓練和微調代碼，致力于賦能更廣泛的研究社區，推動共情語音系統領域的創新與發展。

△表 1 語音語言大模型的開源程度核心貢獻

1. 模型的構建與訓練

OpenS2S 基于先進的框架構建了高效的端到端語音到語音共情對話模型，并使用高質量數據進行訓練。該模型能夠為人類與人工智能提供更便捷、更自然的交互方式。

2. 共情語音指令數據集的自動化構建

OpenS2S 提出了一種自動化的數據增強方法，融合了大語言模型（LLMs）與文本到語音（TTS）技術的優勢，專為共情語音對話而設計。借助 LLMs 生成豐富多樣的用戶提問與共情回應，再通過語音克隆技術確保說話者身份的多樣性。更重要的是，該技術實現了對語音情感表達的精準控制，能夠以極低的人力成本，構建出內容豐富、高質量的訓練數據集，為共情語音系統的發展注入強大動力。

3. 全面開源發布

為促進學術合作與推動共情大規模語音語言模型（LSLMs）領域的快速創新，OpenS2S 完整開源了所有核心資源。包括模型權重、數據集構建代碼、預訓練與微調代碼、評估工具及合成數據集，致力于為研究社區提供完全透明、可復現的研究基礎，助力共情語音技術的持續突破。

技術方案

OpenS2S 采用模塊化設計，包含四大核心組件：

- 音頻編碼器：基于 Qwen2-Audio 編碼器，高效提取音頻波形中的語義與非語言特征。

- 指令遵循大語言模型（LLM）：選用 Qwen3-8B-Instruct，發揮其強大的文本理解與處理能力，實現精準指令解析。

- 流式語音解碼器：借鑒 Minmo 與 LLaMA-Omni2，采用監督語義語音分詞器將語音響應離散化為 token，隨后通過自回歸文本到語音模型生成連續語音 token，實現低延遲流式生成。

- Token2Wav 解碼器：將生成的語音 token 轉換為最終語音波形，分塊感知因果流匹配模型及 HiFi-GAN 聲碼器均采用 GLM-4-Voice 中的預訓練組件，保證語音質量自然流暢。

** △圖 1 OpenS2S 架構示意圖

數據構建過程：

首先，利用強大的 LLMs 生成多樣化且富有共情色彩的用戶查詢及其對應的回應，確保了對話內容的豐富性和真實性。

接著，通過引入語音克隆技術，進一步豐富了數據集的語音多樣性，使其能夠模擬不同說話者的聲音。

更進一步，借助 InstructTTS 技術，模型能夠對語音回應中的情感表達進行精確控制，使合成的語音不僅語義連貫，更能在情感層面自然地傳遞共情。

通過這一自動化流程，OpenS2S 實現了以極低的成本合成出大量高質量、具備語言多樣性的共情語音對話數據，并且僅需少量人工監督，從而為模型學習富有共情的人機交互提供了堅實且可擴展的訓練基礎。

△圖 2 共情語音指令數據集構建的自動化流程

訓練流程分為三階段：

語音理解預訓練、語音生成預訓練及共情語音指令微調，全面提升模型對語音語義和非語言線索的感知能力，最終實現自然且富有共情的語音響應生成。

** △圖 3 OpenS2S 訓練過程示意圖實驗結果

端到端語音到語音共情交互相對難以評測，按照兩階段的方式，先進行語音到文本的評測，再展示語音到語音的共情交互樣例。

語音到文本評測能夠驗證模型的語音指令遵循能力、語義和情感理解能力。在語音到文本的交互能力評估中，OpenS2S 在 VoiceBench 的四個子集上取得了優異成績，其表現僅次于 Kimi-Audio（基于超大規模語音數據訓練），優于其他所有模型。

這表明 OpenS2S 擁有強大的語音交互能力，能夠高效理解用戶的語音指令輸入。此外，在 URO-Bench 的共情評估子集上，盡管訓練數據量遠少于現有最先進模型，OpenS2S 依然取得了很好的表現。

這不僅驗證了 OpenS2S 的共情交互能力，也充分體現了其創新共情語音對話數據生成方法的高質量和有效性。

△表 2 OpenS2S 與其他模型在語音到文本交互基準測試中的性能對比。

在 GitHub 頁面上還展示了若干語音到語音的共情對話樣例。從例子中可以深切感受到模型對于用戶的精準理解和共情能力。

論文地址：https://arxiv.org/pdf/2507.05177

Demo 樣例地址：https://casia-lm.github.io/OpenS2S

代碼地址：https://github.com/CASIA-LM/OpenS2S

數據地址：https://huggingface.co/datasets/CASIA-LM/OpenS2S_Datasets

模型地址：https://huggingface.co/CASIA-LM/OpenS2S

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法！

— 完 —

專屬 AI 產品從業者的實名社群，只聊 AI 產品最落地的真問題 掃碼添加小助手，發送「姓名 + 公司 + 職位」申請入群～

進群后，你將直接獲得：

最新最專業的 AI 產品信息及分析

不定期發放的熱門產品內測碼

內部專屬內容與專業討論

點亮星標

科技前沿進展每日見

宙世代

ZAKER旗下Web3.0元宇宙平臺

一起剪

ZAKER旗下免費視頻剪輯工具

相關標簽

ai 人工智能

精品香蕉一区二区三区,国产精品电影,性xxxfreexxxx性欧美,亚洲自拍的二区三区

宙世代元宇宙

元宇宙黨建解決方案

元宇宙文旅解決方案

元宇宙展廳解決方案

元宇宙行業峰會解決方案

元宇宙營銷解決方案

元宇宙會展解決方案

元宇宙演藝節目解決方案

元宇宙博物館解決方案

元宇宙圖書館解決方案

元宇宙校園解決方案

元宇宙企業展廳解決方案

元宇宙藝術展解決方案

元宇宙電商解決方案

融媒體解決方案

ZAKER智慧云

媒體解決方案

黨建解決方案

公檢法解決方案

智慧交通解決方案

高校解決方案

AI視頻剪輯

AI視頻剪輯

AI智能客服

AI工具箱

AI寫稿助手

AI口語陪練

我的訂閱

完全透明開源的共情語音大模型，三階段訓練，四大模塊實現端到端對話

宙世代

一起剪

相關閱讀

iPhone 17系列重回鋁合金中框：僅iPhone 17 Air保留鈦合金

AI廣告48小時破億播放，傳統廣告人如何求生？

博通新品直擊英偉達！Tomahawk Ultra以4倍擴展力搶灘AI數據中心

美國打造史上最精準原子鐘：精度創小數點后19位紀錄

月之暗面回應Kimi K2 API速度慢：訪問量大模型體積大 正全力優化

英偉達CEO黃仁勛今天首次中文演講：直言好緊張 要好好練習中文

蘋果又擠了一次牙膏：iPhone 17系列升級無線充電

網友機場擺渡車偶遇余承東、何剛：自己拿行李箱 專注看手機

榮耀亟須一個爆款

黃仁勛來華首次回應大熱天穿皮夾克：只有一套西裝 沒來得及干洗

硬核之王榮耀X70正式發布，售價1399元起

科技巨頭逐鹿AI編程，亞馬遜入局

一圖讀懂榮耀X70：8300mAh電池續航無敵 1399元起

蘋果研發加速：至少7款自研處理器同步開發中

最新評論

量子位

熱門推薦

月之暗面回應Kimi K2 API速度慢：訪問量大模型體積大正全力優化

英偉達CEO黃仁勛今天首次中文演講：直言好緊張要好好練習中文

網友機場擺渡車偶遇余承東、何剛：自己拿行李箱專注看手機

黃仁勛來華首次回應大熱天穿皮夾克：只有一套西裝沒來得及干洗