FireRedTTS-2

面向多說話者對話生成的長篇流式文本轉語音系統

系統概述

FireRedTTS-2是小紅書FireRed團隊推出的第二代文本轉語音系統,專為多說話者對話生成設計。該系統提供穩定、自然的語音輸出,同時實現可靠的說話人切換和語境感知的韻律控制。

功能介紹截圖

FireRedTTS-2 功能演示

核心改進

長篇流式合成

支援長篇內容的流式語音合成,降低延遲,提升用戶體驗

多說話者對話

專為多說話者對話場景優化,實現自然的說話人切換

語境感知韻律

根據對話語境自動調整語音韻律,使輸出更加自然

增強穩定性

改進的系統架構確保長時間運行的穩定性和一致性

技術優勢

  • 流式解碼器:支援即時流式語音合成,適用於對話系統
  • 說話人嵌入優化:改進的說話人表示方法,實現更可靠的說話人切換

應用場景

AI播客製作

自動生成多人對話播客內容,支援不同角色語音

虛擬會議

為虛擬會議系統提供多說話人語音合成能力

  • 上下文建模:增強的上下文理解能力,生成更符合語境的語音
  • 端到端訓練:完整的端到端訓練流程,簡化部署和使用

對話系統

為聊天機器人和虛擬助手提供更自然的對話語音

有聲劇製作

快速生成多角色有聲劇內容,提高製作效率

與FireRedTTS-1的對比

特性 FireRedTTS-1 FireRedTTS-2
主要應用場景 單說話人語音合成 多說話人對話生成
合成方式 批處理合成 流式合成
說話人切換 基礎支援 優化支援
語境感知 有限支援 深度支援
長篇內容處理 分段處理 連續流式處理