FireRedTTS-1
基础版文本转语音系统
系统概述
FireRedTTS-1是小红书FireRed团队推出的首个开源文本转语音系统,基于大语言模型技术构建。该系统能够实现高质量的语音合成,支持零样本语音克隆和情感语音生成等功能。
核心技术特点
语义感知标记器
采用语义感知的语音标记器(SAST)将语音信号压缩为离散标记,提高合成质量
两阶段生成
文本到语义标记再到波形的两阶段生成系统,确保高质量输出
零样本克隆
仅需几秒钟参考音频即可模仿任意音色和说话风格
情感表达
支持多种情绪表达和丰富的副语言特征生成
技术架构
FireRedTTS-1采用基于语言模型的基础TTS系统架构,主要包含三个模块:
- 语音标记器:将语音信号转换为离散语义标记
- 文本到语音语言模型:将文本标记映射到语义标记
- 标记到波形生成器:将语义标记转换为最终音频波形
应用场景
视频配音
为短视频、教育内容等提供个性化语音合成
虚拟助手
为智能客服、语音助手等应用提供自然语音输出
有声读物
快速生成高质量有声读物内容
