ACE-Stepは、ByteDanceがリリースしたオープンソースの音楽生成基盤モデルで、拡散トランスフォーマーと条件付きフローマッチングアプローチを組み合わせています。知っておくべきことをすべてご紹介します。
最終更新:2026年2月
ACE-Stepは、ByteDanceが2025年にリリースしたオープンソースのテキスト→音楽モデルです。バージョン1.5では、ボーカルの明瞭度、リズムの一貫性、マルチ楽器のコヒーレンスが大幅に改善されました。このモデルは、テキスト記述を条件とする拡散トランスフォーマーアーキテクチャを使用し、最大4分の生成をサポートします。
ACE-Stepは、STFT(短時間フーリエ変換)ドメインで動作する潜在拡散モデル(LDM)を使用します。波形ベースのモデルとは異なり、このアプローチにより低い計算コストで高品質な音声合成が可能です。アーキテクチャは、音楽VAEエンコーダー-デコーダーと条件付きフローマッチング拡散トランスフォーマーを組み合わせています。
FM9はクラウド駆動の音楽生成を提供します——GPUも、セットアップも、依存関係のインストール待ちも不要。ACE-Stepは完全な制御を望む研究者やパワーユーザーに優れていますが、FM9はインフラではなく音楽に集中したいクリエイターに即時の結果を提供します。