FireRedTTS 版本说明

了解FireRedTTS的发展历程和版本特性

FireRedTTS-2

最新版FireRedTTS-2 特点 长对话语音生成:目前支持 4 分钟、4 个角色的对话,通过扩展训练语料库可以轻松扩展到更多角色和更长的对话。

查看详情

FireRedTTS-1

2024年9月发布的第一版,FireRedTTS 是基础版文本转语音系统,支持零样本语音克隆和情感语音生成。

查看详情

2025年

FireRedTTS-2 发布

为了满足更复杂的多说话者对话生成需求,团队推出了FireRedTTS-2。该版本专为长篇流式文本转语音设计,提供更自然的语音输出和可靠的说话人切换能力。

核心特性

  • 面向多说话者对话生成的长篇流式文本转语音系统
  • 语境感知的韵律控制,生成更自然的语音
  • 增强的说话人切换能力
  • 改进的系统架构,提升长时间运行稳定性
  • 优化的流式合成性能

2024年9月

FireRedTTS-1 发布

小红书FireRed团队发布了首个FireRedTTS版本,基于大语言模型的文本转语音系统。该版本支持零样本语音克隆、情感语音生成等功能,为用户提供高质量的语音合成体验。

核心特性

  • 基于大语言模型的文本转语音系统
  • 零样本语音克隆,仅需几秒参考音频
  • 丰富的情感语音生成能力
  • 支持中文、英文及中英混合文本处理
  • 流式解码器,降低合成延迟

版本对比

特性 FireRedTTS-1 FireRedTTS-2
主要应用场景 单说话人语音合成 多说话人对话生成
合成方式 批处理合成 流式合成
说话人切换 基础支持 优化支持
语境感知 有限支持 深度支持
长篇内容处理 分段处理 连续流式处理
系统稳定性 良好 增强