ACE-Step 是字節跳動發布的開源音樂生成基礎模型,結合了擴散變換器與條件流匹配方法。以下是你需要瞭解的一切。
最後更新:2026年2月
ACE-Step 是字節跳動於 2025 年發布的開源文字轉音樂模型。1.5 版本在人聲清晰度、節奏一致性和多樂器協調性方面有了顯著提升。該模型使用以文字描述為條件的擴散變換器架構,支援最長 4 分鐘的音樂生成。
ACE-Step 使用在 STFT(短時傅立葉變換)域中運行的潛在擴散模型(LDM)。與基於波形的模型不同,這種方法以更低的計算成本實現高品質音訊合成。架構結合了音樂 VAE 編解碼器與條件流匹配擴散變換器。
FM9 為你提供雲端驅動的音樂生成——無需 GPU、無需配置、無需等待相依性安裝。雖然 ACE-Step 對於需要完全控制的研究人員和進階用戶非常出色,但 FM9 能為專注於音樂創作而非基礎設施的創作者提供即時結果。