FireRedTTS-1

基础版文本转语音系统

FireRedTTS-1

2024年9月发布的第一版,FireRedTTS 是基础版文本转语音系统,支持零样本语音克隆和情感语音生成。

当前版本

FireRedTTS-2

最新版FireRedTTS-2 特点:长对话语音生成,支持 4 分钟、4 个角色的对话。

查看新版

系统概述

FireRedTTS-1是小红书FireRed团队推出的首个开源文本转语音系统,基于大语言模型技术构建。该系统能够实现高质量的语音合成,支持零样本语音克隆和情感语音生成等功能。

核心技术特点

语义感知标记器

采用语义感知的语音标记器(SAST)将语音信号压缩为离散标记,提高合成质量

两阶段生成

文本到语义标记再到波形的两阶段生成系统,确保高质量输出

零样本克隆

仅需几秒钟参考音频即可模仿任意音色和说话风格

情感表达

支持多种情绪表达和丰富的副语言特征生成

技术架构

FireRedTTS-1采用基于语言模型的基础TTS系统架构,主要包含三个模块:

  • 语音标记器:将语音信号转换为离散语义标记
  • 文本到语音语言模型:将文本标记映射到语义标记
  • 标记到波形生成器:将语义标记转换为最终音频波形

应用场景

视频配音

为短视频、教育内容等提供个性化语音合成

虚拟助手

为智能客服、语音助手等应用提供自然语音输出

有声读物

快速生成高质量有声读物内容

FireRedTTS-1 系统架构图