亚博(中国)体育app 好意思团新音频模子开源, 音色克隆武艺拉满 亚博(中国)体育app 好意思团新音频模子开源, 音色克隆武艺拉满
你的位置:雅博体育app中国官网入口 > 关于雅博 >

亚博(中国)体育app 好意思团新音频模子开源, 音色克隆武艺拉满

发布日期:2026-04-02 21:40    点击次数:181

亚博(中国)体育app 好意思团新音频模子开源, 音色克隆武艺拉满

IT之家4月2日音书,好意思团昨天发布LongCat-AudioDiT音频生成模子,透顶松手梅尔谱等中间暗示,径直在波形潜空间进行基于扩散模子的文本转语音(TTS),堪称“冲破零样本TTS音色克隆上限”。

据先容,业界主流TTS引擎遥远受困于“多阶段”的复杂进程:先展望中间声学特征(如梅尔频谱),再依赖一个孤独的神经声码器将特征“翻译”成最终波形。这种进程内容上是在两个不同空间里“寄语”,势必会蓄积舛错,导致最终合成的声息丢失了高保真、个性化的细节。

而LongCat-AudioDiT的中枢架构逻辑特别粗浅,雅博体育app只用一个波形变分自编码器(Wav-VAE)和一个扩散Transformer(DiT),在波形隐空间里完成声息的压缩、建模与重建。领有高效的下采样与多要领建模、非参数捷径平安教育以及抵抗式多标的教育等多维度改进。

同期,该模子的主干收罗基于Transformer,集周详局自顺应层归一化(GlobalAdaLN)、QK-Norm+RoPE平安扎视力教育等多项结构优化。还八成通过双重管理机制确立流匹配TTS的“教育-推理”不匹配问题。

性能方面,该模子的3.5B版块在Seed-ZH测试集的话语东说念主一样度(SIM)办法提高至0.818,Seed-Hard测试集达到0.797,特出了Seed-TTS、CosyVoice3.5、MiniMax-Speech等盛名模子。

现在该模子还是开源亚博(中国)体育app,IT之家附1B/3.5B参数版块辘集如下:

快乐彩正版app下载官网

友情链接:

TOP