ACE-Step 是字节跳动发布的开源音乐生成基础模型,结合了扩散变换器与条件流匹配方法。以下是你需要了解的一切。
最后更新:2026年2月
ACE-Step 是字节跳动于 2025 年发布的开源文本转音乐模型。1.5 版本在人声清晰度、节奏一致性和多乐器协调性方面有了显著提升。该模型使用以文本描述为条件的扩散变换器架构,支持最长 4 分钟的音乐生成。
ACE-Step 使用在 STFT(短时傅里叶变换)域中运行的潜在扩散模型(LDM)。与基于波形的模型不同,这种方法以更低的计算成本实现高质量音频合成。架构结合了音乐 VAE 编解码器与条件流匹配扩散变换器。
FM9 为你提供云端驱动的音乐生成——无需 GPU、无需配置、无需等待依赖安装。虽然 ACE-Step 对于需要完全控制的研究人员和高级用户非常出色,但 FM9 能为专注于音乐创作而非基础设施的创作者提供即时结果。