Stimmen Sie ACE-Step mit benutzerdefinierten LoRA-Adaptern ab, um Musik in Ihrem einzigartigen Stil zu generieren.
Zuletzt aktualisiert: Februar 2026
LoRA (Niedrigrang-Adaption) ist eine Technik, die es ermöglicht, große Modelle effizient durch Training nur eines kleinen Satzes von Adapter-Gewichten feinabzustimmen. Für ACE-Step bedeutet das, dass Sie dem Modell einen spezifischen Musikstil mit nur 20-50 Referenztracks beibringen können.
Qualitätsdaten sind der wichtigste Faktor beim LoRA-Training. Jede Audiodatei sollte 30-120 Sekunden lang sein, ein einzelnes Instrument oder klar gemischtes Audio enthalten und den Zielstil konsistent repräsentieren.
# Using Demucs for stem separation
pip install demucs
python -m demucs --two-stems=vocals audio/mixed_track.wavStem separation with Demucs for cleaner vocal isolation
# Normalize to -14 LUFS using ffmpeg
ffmpeg -i input.wav -filter:a loudnorm=I=-14:TP=-1.5:LRA=11 output.wavLoudness normalization to -14 LUFS
Diese empfohlenen Parameter funktionieren für die meisten Musikstil-LoRAs. Passen Sie basierend auf Ihrer Datensatzgröße und Zielstilspezifität an.
| Parameter | Recommended | Range | Note |
|---|---|---|---|
| LoRA Rank | 16 | 4–64 | Higher = more capacity, slower training |
| LoRA Alpha | 32 | 8–128 | Usually 2× rank value |
| Learning Rate | 1e-4 | 5e-5 – 5e-4 | Lower for small datasets |
| Batch Size | 4 | 1–16 | Reduce if OOM errors occur |
| Epochs | 50–150 | 20–500 | Monitor for overfitting |
| Warmup Steps | 50 | 0–200 | Stabilizes early training |
Sammeln Sie 20-100 Audiosamples, die Ihren Zielstil repräsentieren. Verwenden Sie Stem-Separation für ein saubereres Trainingssignal. Exportieren Sie als WAV/FLAC bei 44,1kHz.
# Recommended directory structure:
dataset/
audio/
track_001.wav
track_002.wav
...
metadata.jsonSchreiben Sie genaue beschreibende Untertitel für jede Audiodatei: Genre, Instrumente, Tempo, Stimmung, Tonart. Die Beschriftungsqualität beeinflusst direkt die LoRA-Effektivität.
[
{
"file": "audio/track_001.wav",
"caption": "upbeat indie folk, acoustic guitar, female vocals, 120 BPM, C major, energetic"
},
{
"file": "audio/track_002.wav",
"caption": "melancholic jazz, piano and double bass, slow tempo, 70 BPM, F minor, introspective"
}
]Kopieren Sie configs/lora_training_template.yaml nach configs/my_lora.yaml. Setzen Sie data_dir auf Ihren Datensatzpfad und passen Sie num_epochs an die Datensatzgröße an.
# configs/my_lora.yaml
model:
base_model: "ace-step-1.5"
lora_rank: 16
lora_alpha: 32
target_modules: ["q_proj", "v_proj", "k_proj", "out_proj"]
training:
num_epochs: 100
batch_size: 4
learning_rate: 1.0e-4
warmup_steps: 50
save_every: 25
data:
data_dir: "./dataset"
sample_rate: 44100
max_duration: 120Ausführen: python train_lora.py --config configs/my_lora.yaml. Überwachen Sie Verlustkurven — Trainingsverlust sollte stetig ohne Spitzen abnehmen.
python train_lora.py \
--config configs/my_lora.yaml \
--data_dir ./dataset \
--output_dir ./lora_output \
--num_epochs 100 \
--batch_size 4 \
--learning_rate 1e-4 \
--lora_rank 16Laden Sie Ihren LoRA-Checkpoint und testen Sie mit verschiedenen Prompts. Falls Ausgaben nicht dem Zielstil entsprechen, erhöhen Sie Trainingsdaten oder Epochen.
# Load and use your trained LoRA
python generate.py \
--prompt "upbeat indie folk with acoustic guitar" \
--lora_path ./lora_output/checkpoint-100 \
--lora_weight 0.8LoRA-Training erfordert 20-50 Referenztracks, 8GB+ GPU und Stunden an Rechenzeit. FM9 ermöglicht Ihnen, den Musikstil mit beschreibenden Prompts zu kontrollieren — kein Training, keine Datensammlung, kein Warten.
Kostenlos mit Erstellen Beginnen