音频克隆：对话文本到口语对话生成MOSS-TTSD

俏襟选 · 2025-7-15 14:23:08

之前介绍过几个音频克隆的可以项目： CosyVoice：https://www.cnblogs.com/cj8988/p/18975495 IndexTTS：https://www.cnblogs.com/cj8988/p/18973016 GPT-SoVITS：https://www.cnblogs.com/cj8988/p/18962212 IndexTTs-多人：https://www.cnblogs.com/cj8988/p/18973609 本章在介绍一个多人对话的(两人对话)开源项目(8GPU可以跑)：MOSS-TTSD 亮点： 高度富有表现力的对话语音：MOSS-TTSD 基于统一的语义声学神经音频编解码器、预先训练的大型语言模型、数百万小时的 TTS 数据以及 40 万小时的合成和真实对话语音，可生成具有自然对话韵律的高度富有表现力、类似人类的对话语音。 双人语音克隆：MOSS-TTSD 支持零样本双人语音克隆，并可根据对话脚本生成具有准确说话人切换的对话语音。 中英双语支持：MOSS-TTSD 能够以中文和英文生成极具表现力的语音。 长篇语音生成：得益于低比特率编解码器和训练框架的优化，MOSS-TTSD 已经可以进行长篇语音生成的训练。 完全开源和商业就绪：MOSS-TTSD 及其未来更新将完全开源并支持免费商业使用。 下载安装： 开源地址：https://github.com/OpenMOSS/MOSS-TTSD 模型下载：https://huggingface.co/fnlp/XY_Tokenizer_TTSD_V0/tree/main 模型存放位置在现在的文件夹下:MOSS-TTSD\XY_Tokenizer\weights\ 官方文档：https://www.open-moss.com/cn/moss-ttsd/

复制代码

复制代码

复制代码

如果flash-attn安装失败，就不用折腾了，我用了很多方法好像都没有成功，所以修改代码，不使用flash-attn。 修改generation_utils.py：找到load_model()函数 将参数默认值修改一下 attn_implementation="flash_attention_2" 修改为attn_implementation="sdpa"

复制代码

复制代码

复制代码

下载完成后，浏览器访问：http://127.0.0.1:7860/ 注意，我试过Single单音频支持不太好(我的音频只有一个人说话，估计两个人说话还是可以的)，所以这里直接使用两个音频进行实验。

复制代码

复制代码

音频1	音频2	合成音频
你的浏览器不支持 audio 标签。	你的浏览器不支持 audio 标签。	你的浏览器不支持 audio 标签。

复制代码

来源：程序园用户自行投稿发布，如果侵权，请联系站长删除
免责声明：如果侵犯了您的权益，请联系站长，我们会及时删除侵权内容，谢谢合作！

娥搽裙 · 2025-11-12 16:38:59

过来提前占个楼

喳谍 · 2025-11-20 22:14:20

分享、互助让互联网精神温暖你我

挽幽 · 2025-11-22 11:00:27

收藏一下不知道什么时候能用到

卒挪 · 昨天 09:43

谢谢楼主提供！

账号		自动登录	找回密码
密码			立即注册

回复