How many samples do I need to train an ACE-Step LoRA?

A minimum of 20 samples can capture basic style characteristics, but 50-100 samples produce much more consistent results. Quality matters more than quantity — 20 pristine, well-captioned samples beat 100 noisy, poorly labeled ones.

How long does ACE-Step LoRA training take?

On an RTX 3090, training 50 samples for 100 epochs takes approximately 2-3 hours. On an RTX 4090, expect 1-1.5 hours. Training time scales roughly linearly with dataset size and epoch count.

Can I share my trained LoRA with others?

Yes. ACE-Step LoRA weights are Apache 2.0 licensed like the base model. Many users share their style LoRAs on HuggingFace and CivitAI.

Will my LoRA work after ACE-Step updates?

LoRAs are version-specific. A LoRA trained on ACE-Step 1.5 may not work correctly with future model versions without retraining or conversion.

LoRA Training

Руководство по Обучению LoRA ACE-Step

Тонко настройте ACE-Step с пользовательскими LoRA-адаптерами для генерации музыки в вашем уникальном стиле.

Последнее обновление: Февраль 2026

Что такое Тонкая Настройка LoRA?

LoRA (адаптация с низким рангом) — техника, позволяющая эффективно настраивать большие модели, обучая только небольшой набор весов адаптера. Для ACE-Step это означает, что вы можете обучить модель конкретному музыкальному стилю, используя всего 20-50 референсных треков.

Подготовка Датасета

Качественные данные — наиболее важный фактор в обучении LoRA. Каждый аудиофайл должен быть 30-120 секунд, одного инструмента или чисто смикшированным, и последовательно представлять целевой стиль.

Минимум 20 образцов для базового захвата стиля
50-100 образцов для надёжной обобщаемости стиля
Используйте инструменты разделения стемов для чистых вокалов или инструментов
Отметьте каждый файл точными текстовыми описаниями
Нормализуйте громкость аудио до -14 LUFS для согласованности

# Using Demucs for stem separation
pip install demucs
python -m demucs --two-stems=vocals audio/mixed_track.wav

Stem separation with Demucs for cleaner vocal isolation

# Normalize to -14 LUFS using ffmpeg
ffmpeg -i input.wav -filter:a loudnorm=I=-14:TP=-1.5:LRA=11 output.wav

Loudness normalization to -14 LUFS

Параметры Обучения

Эти рекомендованные параметры подходят для большинства LoRA музыкальных стилей. Настройте в зависимости от размера датасета и специфики целевого стиля.

Parameter	Recommended	Range	Note
LoRA Rank	16	4–64	Higher = more capacity, slower training
LoRA Alpha	32	8–128	Usually 2× rank value
Learning Rate	1e-4	5e-5 – 5e-4	Lower for small datasets
Batch Size	4	1–16	Reduce if OOM errors occur
Epochs	50–150	20–500	Monitor for overfitting
Warmup Steps	50	0–200	Stabilizes early training

Шаги Обучения

1
Подготовить Данные Обучения
Соберите 20-100 аудиообразцов, представляющих ваш целевой стиль. Используйте разделение стемов для более чистого сигнала. Экспортируйте как WAV/FLAC при 44,1кГц.
```
# Recommended directory structure:
dataset/
  audio/
    track_001.wav
    track_002.wav
    ...
  metadata.json
```
2
Создать Текстовые Описания
Напишите точные описательные подписи для каждого аудиофайла: жанр, инструменты, темп, настроение, тональность. Качество подписей напрямую влияет на эффективность LoRA.
```
[
  {
    "file": "audio/track_001.wav",
    "caption": "upbeat indie folk, acoustic guitar, female vocals, 120 BPM, C major, energetic"
  },
  {
    "file": "audio/track_002.wav",
    "caption": "melancholic jazz, piano and double bass, slow tempo, 70 BPM, F minor, introspective"
  }
]
```

Настроить Скрипт Обучения

Скопируйте configs/lora_training_template.yaml в configs/my_lora.yaml. Установите data_dir на путь к вашему датасету и настройте num_epochs.

# configs/my_lora.yaml
model:
  base_model: "ace-step-1.5"
  lora_rank: 16
  lora_alpha: 32
  target_modules: ["q_proj", "v_proj", "k_proj", "out_proj"]

training:
  num_epochs: 100
  batch_size: 4
  learning_rate: 1.0e-4
  warmup_steps: 50
  save_every: 25

data:
  data_dir: "./dataset"
  sample_rate: 44100
  max_duration: 120

4
Запустить Обучение
Выполните: python train_lora.py --config configs/my_lora.yaml. Следите за кривыми потерь — потери обучения должны снижаться без всплесков.
```
python train_lora.py \
  --config configs/my_lora.yaml \
  --data_dir ./dataset \
  --output_dir ./lora_output \
  --num_epochs 100 \
  --batch_size 4 \
  --learning_rate 1e-4 \
  --lora_rank 16
```
5
Тестировать и Итерировать
Загрузите LoRA-чекпоинт и тестируйте с различными запросами. Если результаты не соответствуют целевому стилю, увеличьте данные обучения или эпохи.
```
# Load and use your trained LoRA
python generate.py \
  --prompt "upbeat indie folk with acoustic guitar" \
  --lora_path ./lora_output/checkpoint-100 \
  --lora_weight 0.8
```

FAQ

Управление Стилем без Обучения с FM9

Обучение LoRA требует 20-50 референсных треков, GPU 8GB+, и часы вычислений. FM9 позволяет контролировать музыкальный стиль с описательными запросами — без обучения, без сбора данных, без ожидания.

Начать Создавать Бесплатно

Руководство по Обучению LoRA ACE-Step

Что такое Тонкая Настройка LoRA?

Подготовка Датасета

Параметры Обучения

Шаги Обучения

Подготовить Данные Обучения

Создать Текстовые Описания

Настроить Скрипт Обучения

Запустить Обучение

Тестировать и Итерировать

FAQ

Управление Стилем без Обучения с FM9

Связанные Статьи

ACE-Step Overview

Installation Guide

ACE-Step vs Suno