FireRedTTS-2

面向多说话者对话生成的长篇流式文本转语音系统

系统概述

FireRedTTS-2是小红书FireRed团队推出的第二代文本转语音系统,专为多说话者对话生成设计。该系统提供稳定、自然的语音输出,同时实现可靠的说话人切换和语境感知的韵律控制。

功能介绍截图

FireRedTTS-2 功能演示

核心改进

长篇流式合成

支持长篇内容的流式语音合成,降低延迟,提升用户体验

多说话者对话

专为多说话者对话场景优化,实现自然的说话人切换

语境感知韵律

根据对话语境自动调整语音韵律,使输出更加自然

增强稳定性

改进的系统架构确保长时间运行的稳定性和一致性

技术优势

  • 流式解码器:支持实时流式语音合成,适用于对话系统
  • 说话人嵌入优化:改进的说话人表示方法,实现更可靠的说话人切换

应用场景

AI播客制作

自动生成多人对话播客内容,支持不同角色语音

虚拟会议

为虚拟会议系统提供多说话人语音合成能力

  • 上下文建模:增强的上下文理解能力,生成更符合语境的语音
  • 端到端训练:完整的端到端训练流程,简化部署和使用

对话系统

为聊天机器人和虚拟助手提供更自然的对话语音

有声剧制作

快速生成多角色有声剧内容,提高制作效率

与FireRedTTS-1的对比

特性 FireRedTTS-1 FireRedTTS-2
主要应用场景 单说话人语音合成 多说话人对话生成
合成方式 批处理合成 流式合成
说话人切换 基础支持 优化支持
语境感知 有限支持 深度支持
长篇内容处理 分段处理 连续流式处理