LoRA Training

Руководство по Обучению LoRA ACE-Step

Тонко настройте ACE-Step с пользовательскими LoRA-адаптерами для генерации музыки в вашем уникальном стиле.

Последнее обновление: Февраль 2026

Что такое Тонкая Настройка LoRA?

LoRA (адаптация с низким рангом) — техника, позволяющая эффективно настраивать большие модели, обучая только небольшой набор весов адаптера. Для ACE-Step это означает, что вы можете обучить модель конкретному музыкальному стилю, используя всего 20-50 референсных треков.

Подготовка Датасета

Качественные данные — наиболее важный фактор в обучении LoRA. Каждый аудиофайл должен быть 30-120 секунд, одного инструмента или чисто смикшированным, и последовательно представлять целевой стиль.

  • Минимум 20 образцов для базового захвата стиля
  • 50-100 образцов для надёжной обобщаемости стиля
  • Используйте инструменты разделения стемов для чистых вокалов или инструментов
  • Отметьте каждый файл точными текстовыми описаниями
  • Нормализуйте громкость аудио до -14 LUFS для согласованности
# Using Demucs for stem separation
pip install demucs
python -m demucs --two-stems=vocals audio/mixed_track.wav

Stem separation with Demucs for cleaner vocal isolation

# Normalize to -14 LUFS using ffmpeg
ffmpeg -i input.wav -filter:a loudnorm=I=-14:TP=-1.5:LRA=11 output.wav

Loudness normalization to -14 LUFS

Параметры Обучения

Эти рекомендованные параметры подходят для большинства LoRA музыкальных стилей. Настройте в зависимости от размера датасета и специфики целевого стиля.

ParameterRecommendedRangeNote
LoRA Rank164–64Higher = more capacity, slower training
LoRA Alpha328–128Usually 2× rank value
Learning Rate1e-45e-5 – 5e-4Lower for small datasets
Batch Size41–16Reduce if OOM errors occur
Epochs50–15020–500Monitor for overfitting
Warmup Steps500–200Stabilizes early training

Шаги Обучения

  1. 1

    Подготовить Данные Обучения

    Соберите 20-100 аудиообразцов, представляющих ваш целевой стиль. Используйте разделение стемов для более чистого сигнала. Экспортируйте как WAV/FLAC при 44,1кГц.

    # Recommended directory structure:
    dataset/
      audio/
        track_001.wav
        track_002.wav
        ...
      metadata.json
  2. 2

    Создать Текстовые Описания

    Напишите точные описательные подписи для каждого аудиофайла: жанр, инструменты, темп, настроение, тональность. Качество подписей напрямую влияет на эффективность LoRA.

    [
      {
        "file": "audio/track_001.wav",
        "caption": "upbeat indie folk, acoustic guitar, female vocals, 120 BPM, C major, energetic"
      },
      {
        "file": "audio/track_002.wav",
        "caption": "melancholic jazz, piano and double bass, slow tempo, 70 BPM, F minor, introspective"
      }
    ]
  3. 3

    Настроить Скрипт Обучения

    Скопируйте configs/lora_training_template.yaml в configs/my_lora.yaml. Установите data_dir на путь к вашему датасету и настройте num_epochs.

    # configs/my_lora.yaml
    model:
      base_model: "ace-step-1.5"
      lora_rank: 16
      lora_alpha: 32
      target_modules: ["q_proj", "v_proj", "k_proj", "out_proj"]
    
    training:
      num_epochs: 100
      batch_size: 4
      learning_rate: 1.0e-4
      warmup_steps: 50
      save_every: 25
    
    data:
      data_dir: "./dataset"
      sample_rate: 44100
      max_duration: 120
  4. 4

    Запустить Обучение

    Выполните: python train_lora.py --config configs/my_lora.yaml. Следите за кривыми потерь — потери обучения должны снижаться без всплесков.

    python train_lora.py \
      --config configs/my_lora.yaml \
      --data_dir ./dataset \
      --output_dir ./lora_output \
      --num_epochs 100 \
      --batch_size 4 \
      --learning_rate 1e-4 \
      --lora_rank 16
  5. 5

    Тестировать и Итерировать

    Загрузите LoRA-чекпоинт и тестируйте с различными запросами. Если результаты не соответствуют целевому стилю, увеличьте данные обучения или эпохи.

    # Load and use your trained LoRA
    python generate.py \
      --prompt "upbeat indie folk with acoustic guitar" \
      --lora_path ./lora_output/checkpoint-100 \
      --lora_weight 0.8

FAQ

Управление Стилем без Обучения с FM9

Обучение LoRA требует 20-50 референсных треков, GPU 8GB+, и часы вычислений. FM9 позволяет контролировать музыкальный стиль с описательными запросами — без обучения, без сбора данных, без ожидания.

Начать Создавать Бесплатно