开源 AI 音乐

ACE-Step 1.5:开源 AI 音乐模型

ACE-Step 是字节跳动发布的开源音乐生成基础模型,结合了扩散变换器与条件流匹配方法。以下是你需要了解的一切。

最后更新:2026年2月

什么是 ACE-Step?

ACE-Step 是字节跳动于 2025 年发布的开源文本转音乐模型。1.5 版本在人声清晰度、节奏一致性和多乐器协调性方面有了显著提升。该模型使用以文本描述为条件的扩散变换器架构,支持最长 4 分钟的音乐生成。

  • Apache 2.0 许可证——可免费商用
  • 可在 8GB+ 显存的 NVIDIA GPU 上本地运行
  • 支持歌词到歌曲的生成
  • 支持 LoRA 微调自定义风格

ACE-Step 的工作原理

ACE-Step 使用在 STFT(短时傅里叶变换)域中运行的潜在扩散模型(LDM)。与基于波形的模型不同,这种方法以更低的计算成本实现高质量音频合成。架构结合了音乐 VAE 编解码器与条件流匹配扩散变换器。

优势

  • 免费开源(Apache 2.0)
  • 强大的歌词融合和人声质量
  • 支持长形式生成(最长 4 分钟)
  • 活跃的社区和 LoRA 生态系统
  • 无使用限制或水印

局限性

  • 需要 8GB+ 显存的 NVIDIA GPU
  • 本地配置复杂,依赖管理繁琐
  • 比云端 API 慢(RTX 3090 上需 2-5 分钟)
  • 无实时协作功能
  • 对冷门乐器支持有限

FM9 vs 本地 ACE-Step

FM9 为你提供云端驱动的音乐生成——无需 GPU、无需配置、无需等待依赖安装。虽然 ACE-Step 对于需要完全控制的研究人员和高级用户非常出色,但 FM9 能为专注于音乐创作而非基础设施的创作者提供即时结果。

FAQ

免费试用 FM9——无需任何配置

在浏览器中生成专业 AI 音乐。注册即送 50 积分。

免费开始创作