FireRedTTS-2
面向多說話者對話生成的長篇流式文本轉語音系統
系統概述
FireRedTTS-2是小紅書FireRed團隊推出的第二代文本轉語音系統,專為多說話者對話生成設計。該系統提供穩定、自然的語音輸出,同時實現可靠的說話人切換和語境感知的韻律控制。
功能介紹截圖

核心改進
長篇流式合成
支援長篇內容的流式語音合成,降低延遲,提升用戶體驗
多說話者對話
專為多說話者對話場景優化,實現自然的說話人切換
語境感知韻律
根據對話語境自動調整語音韻律,使輸出更加自然
增強穩定性
改進的系統架構確保長時間運行的穩定性和一致性
技術優勢
- 流式解碼器:支援即時流式語音合成,適用於對話系統
- 說話人嵌入優化:改進的說話人表示方法,實現更可靠的說話人切換
應用場景
AI播客製作
自動生成多人對話播客內容,支援不同角色語音
虛擬會議
為虛擬會議系統提供多說話人語音合成能力
- 上下文建模:增強的上下文理解能力,生成更符合語境的語音
- 端到端訓練:完整的端到端訓練流程,簡化部署和使用
對話系統
為聊天機器人和虛擬助手提供更自然的對話語音
有聲劇製作
快速生成多角色有聲劇內容,提高製作效率
與FireRedTTS-1的對比
特性 | FireRedTTS-1 | FireRedTTS-2 |
---|---|---|
主要應用場景 | 單說話人語音合成 | 多說話人對話生成 |
合成方式 | 批處理合成 | 流式合成 |
說話人切換 | 基礎支援 | 優化支援 |
語境感知 | 有限支援 | 深度支援 |
長篇內容處理 | 分段處理 | 連續流式處理 |