FireRedTTS-1
基礎版文本轉語音系統
系統概述
FireRedTTS-1是小紅書FireRed團隊推出的首個開源文本轉語音系統,基於大語言模型技術構建。該系統能夠實現高品質的語音合成,支援零樣本語音克隆和情感語音生成等功能。
核心技術特點
語義感知標記器
採用語義感知的語音標記器(SAST)將語音信號壓縮為離散標記,提高合成品質
兩階段生成
文本到語義標記再到波形的兩階段生成系統,確保高品質輸出
零樣本克隆
僅需幾秒鐘參考音頻即可模仿任意音色和說話風格
情感表達
支援多種情緒表達和豐富的副語言特徵生成
技術架構
FireRedTTS-1採用基於語言模型的基礎TTS系統架構,主要包含三個模組:
- 語音標記器:將語音信號轉換為離散語義標記
- 文本到語音語言模型:將文本標記映射到語義標記
- 標記到波形產生器:將語義標記轉換為最終音頻波形
應用場景
影片配音
為短影片、教育內容等提供個人化語音合成
虛擬助手
為智慧客服、語音助手等應用提供自然語音輸出
有聲讀物
快速生成高品質有聲讀物內容
