项目介绍
介绍
IndexTTS 是哔哩哔哩(B站)推出的一款工业级、可控性强的文本转语音(TTS)系统。它基于开源项目 XTTS 和 Tortoise 进行深度优化,融合了类 GPT 的生成式模型架构,能够将文本快速转化为自然、流畅、高保真的语音。IndexTTS 在中文处理方面表现尤为出色:具备拼音纠错、多音字消歧、长尾字发音优化、精细停顿控制等功能,极大提升了语音合成的自然度和准确性。其核心采用字符与拼音的混合建模方法,并集成了最新的语音建模技术。性能方面,IndexTTS 在权威评测中表现亮眼——字词错误率(WER)低至 1.3%,扬声器相似性(SS)高达 0.776,主观音质评分(MOS)为 4.01,整体表现领先业内同类产品。IndexTTS 使用了大规模语音数据进行训练,包括 2.5 万小时中文音频 和 9000 小时英文语音,确保合成语音在内容和音色上的多样性与一致性。 主要功能亮点:
- 拼音纠错与精准停顿:自动识别并纠正拼音错误,有效解决多音字误读问题;通过标点符号实现精细的停顿控制,使语音输出更具自然节奏感。
- 高音质输出:采用基于 Conformer 的条件编码器和 BigVGAN2 解码器,全面提升语音的音质与音色相似度,MOS 达 4.01。
- 多语言支持:目前支持中文与英文,未来将扩展至更多语言场景。
- 语音风格可控:支持零样本语音克隆,可模仿任意说话人风格生成语音。