亚博(中国)体育app 好意思团新音频模子开源, 音色克隆武艺拉满

发布日期：2026-04-02 21:40 点击次数：181

亚博(中国)体育app 好意思团新音频模子开源，音色克隆武艺拉满

IT之家4月2日音书，好意思团昨天发布LongCat-AudioDiT音频生成模子，透顶松手梅尔谱等中间暗示，径直在波形潜空间进行基于扩散模子的文本转语音（TTS），堪称“冲破零样本TTS音色克隆上限”。

据先容，业界主流TTS引擎遥远受困于“多阶段”的复杂进程：先展望中间声学特征（如梅尔频谱），再依赖一个孤独的神经声码器将特征“翻译”成最终波形。这种进程内容上是在两个不同空间里“寄语”，势必会蓄积舛错，导致最终合成的声息丢失了高保真、个性化的细节。

而LongCat-AudioDiT的中枢架构逻辑特别粗浅，雅博体育app只用一个波形变分自编码器（Wav-VAE）和一个扩散Transformer（DiT），在波形隐空间里完成声息的压缩、建模与重建。领有高效的下采样与多要领建模、非参数捷径平安教育以及抵抗式多标的教育等多维度改进。

同期，该模子的主干收罗基于Transformer，集周详局自顺应层归一化（GlobalAdaLN）、QK-Norm+RoPE平安扎视力教育等多项结构优化。还八成通过双重管理机制确立流匹配TTS的“教育-推理”不匹配问题。

性能方面，该模子的3.5B版块在Seed-ZH测试集的话语东说念主一样度（SIM）办法提高至0.818，Seed-Hard测试集达到0.797，特出了Seed-TTS、CosyVoice3.5、MiniMax-Speech等盛名模子。

现在该模子还是开源亚博(中国)体育app，IT之家附1B/3.5B参数版块辘集如下：

快乐彩正版app下载官网