FireRedTTS-2
面向多说话者对话生成的长篇流式文本转语音系统
系统概述
FireRedTTS-2是小红书FireRed团队推出的第二代文本转语音系统,专为多说话者对话生成设计。该系统提供稳定、自然的语音输出,同时实现可靠的说话人切换和语境感知的韵律控制。
功能介绍截图

核心改进
长篇流式合成
支持长篇内容的流式语音合成,降低延迟,提升用户体验
多说话者对话
专为多说话者对话场景优化,实现自然的说话人切换
语境感知韵律
根据对话语境自动调整语音韵律,使输出更加自然
增强稳定性
改进的系统架构确保长时间运行的稳定性和一致性
技术优势
- 流式解码器:支持实时流式语音合成,适用于对话系统
- 说话人嵌入优化:改进的说话人表示方法,实现更可靠的说话人切换
应用场景
AI播客制作
自动生成多人对话播客内容,支持不同角色语音
虚拟会议
为虚拟会议系统提供多说话人语音合成能力
- 上下文建模:增强的上下文理解能力,生成更符合语境的语音
- 端到端训练:完整的端到端训练流程,简化部署和使用
对话系统
为聊天机器人和虚拟助手提供更自然的对话语音
有声剧制作
快速生成多角色有声剧内容,提高制作效率
与FireRedTTS-1的对比
特性 | FireRedTTS-1 | FireRedTTS-2 |
---|---|---|
主要应用场景 | 单说话人语音合成 | 多说话人对话生成 |
合成方式 | 批处理合成 | 流式合成 |
说话人切换 | 基础支持 | 优化支持 |
语境感知 | 有限支持 | 深度支持 |
长篇内容处理 | 分段处理 | 连续流式处理 |