FireRedTTS-1

基礎版文本轉語音系統

FireRedTTS-1

2024年9月發布的第一版,FireRedTTS 是基礎版文本轉語音系統,支援零樣本語音克隆和情感語音生成。

當前版本

FireRedTTS-2

最新版FireRedTTS-2 特點:長對話語音生成,支援 4 分鐘、4 個角色的對話。

查看新版

系統概述

FireRedTTS-1是小紅書FireRed團隊推出的首個開源文本轉語音系統,基於大語言模型技術構建。該系統能夠實現高品質的語音合成,支援零樣本語音克隆和情感語音生成等功能。

核心技術特點

語義感知標記器

採用語義感知的語音標記器(SAST)將語音信號壓縮為離散標記,提高合成品質

兩階段生成

文本到語義標記再到波形的兩階段生成系統,確保高品質輸出

零樣本克隆

僅需幾秒鐘參考音頻即可模仿任意音色和說話風格

情感表達

支援多種情緒表達和豐富的副語言特徵生成

技術架構

FireRedTTS-1採用基於語言模型的基礎TTS系統架構,主要包含三個模組:

  • 語音標記器:將語音信號轉換為離散語義標記
  • 文本到語音語言模型:將文本標記映射到語義標記
  • 標記到波形產生器:將語義標記轉換為最終音頻波形

應用場景

影片配音

為短影片、教育內容等提供個人化語音合成

虛擬助手

為智慧客服、語音助手等應用提供自然語音輸出

有聲讀物

快速生成高品質有聲讀物內容

FireRedTTS-1 系統架構圖