LoRA Training

Guia de Treinamento LoRA do ACE-Step

Ajuste fino do ACE-Step com adaptadores LoRA personalizados para gerar música no seu estilo único.

Última atualização: Fevereiro 2026

O Que é Ajuste Fino LoRA?

LoRA (Adaptação de Baixo Rank) é uma técnica que permite ajustar finamente modelos grandes eficientemente treinando apenas um pequeno conjunto de pesos de adaptadores. Para ACE-Step, isso significa que você pode ensinar ao modelo um estilo musical específico usando apenas 20-50 faixas de referência.

Preparação do Dataset

Dados de qualidade são o fator mais importante no treinamento LoRA. Cada arquivo de áudio deve ter 30-120 segundos, ser de um único instrumento ou claramente mixado, e representar consistentemente o estilo alvo.

  • Mínimo de 20 amostras para captura básica de estilo
  • 50-100 amostras para generalização robusta do estilo
  • Use ferramentas de separação de stems para isolar vocais ou instrumentos limpos
  • Marque cada arquivo com legendas de texto precisas
  • Normalize a sonoridade do áudio para -14 LUFS para consistência
# Using Demucs for stem separation
pip install demucs
python -m demucs --two-stems=vocals audio/mixed_track.wav

Stem separation with Demucs for cleaner vocal isolation

# Normalize to -14 LUFS using ffmpeg
ffmpeg -i input.wav -filter:a loudnorm=I=-14:TP=-1.5:LRA=11 output.wav

Loudness normalization to -14 LUFS

Parâmetros de Treinamento

Esses parâmetros recomendados funcionam para a maioria dos LoRAs de estilo musical. Ajuste com base no tamanho do dataset e na especificidade do estilo alvo.

ParameterRecommendedRangeNote
LoRA Rank164–64Higher = more capacity, slower training
LoRA Alpha328–128Usually 2× rank value
Learning Rate1e-45e-5 – 5e-4Lower for small datasets
Batch Size41–16Reduce if OOM errors occur
Epochs50–15020–500Monitor for overfitting
Warmup Steps500–200Stabilizes early training

Etapas de Treinamento

  1. 1

    Preparar Dados de Treinamento

    Colete 20-100 amostras de áudio representando seu estilo alvo. Use separação de stems para um sinal de treinamento mais limpo. Exporte como WAV/FLAC a 44,1kHz.

    # Recommended directory structure:
    dataset/
      audio/
        track_001.wav
        track_002.wav
        ...
      metadata.json
  2. 2

    Gerar Descrições de Texto

    Escreva legendas descritivas precisas para cada arquivo de áudio: gênero, instrumentos, tempo, humor, tonalidade. A qualidade das legendas impacta diretamente a eficácia do LoRA.

    [
      {
        "file": "audio/track_001.wav",
        "caption": "upbeat indie folk, acoustic guitar, female vocals, 120 BPM, C major, energetic"
      },
      {
        "file": "audio/track_002.wav",
        "caption": "melancholic jazz, piano and double bass, slow tempo, 70 BPM, F minor, introspective"
      }
    ]
  3. 3

    Configurar Script de Treinamento

    Copie configs/lora_training_template.yaml para configs/my_lora.yaml. Defina data_dir para o caminho do seu dataset e ajuste num_epochs baseado no tamanho do dataset.

    # configs/my_lora.yaml
    model:
      base_model: "ace-step-1.5"
      lora_rank: 16
      lora_alpha: 32
      target_modules: ["q_proj", "v_proj", "k_proj", "out_proj"]
    
    training:
      num_epochs: 100
      batch_size: 4
      learning_rate: 1.0e-4
      warmup_steps: 50
      save_every: 25
    
    data:
      data_dir: "./dataset"
      sample_rate: 44100
      max_duration: 120
  4. 4

    Executar Treinamento

    Execute: python train_lora.py --config configs/my_lora.yaml. Monitore as curvas de perda — a perda de treinamento deve diminuir constantemente sem picos.

    python train_lora.py \
      --config configs/my_lora.yaml \
      --data_dir ./dataset \
      --output_dir ./lora_output \
      --num_epochs 100 \
      --batch_size 4 \
      --learning_rate 1e-4 \
      --lora_rank 16
  5. 5

    Testar e Iterar

    Carregue seu checkpoint LoRA e teste com prompts variados. Se as saídas não corresponderem ao estilo alvo, aumente os dados de treinamento ou épocas.

    # Load and use your trained LoRA
    python generate.py \
      --prompt "upbeat indie folk with acoustic guitar" \
      --lora_path ./lora_output/checkpoint-100 \
      --lora_weight 0.8

FAQ

Controle de Estilo Zero-Shot com FM9

O treinamento LoRA requer 20-50 faixas de referência, GPU com 8GB+, e horas de computação. FM9 permite que você controle o estilo musical com prompts descritivos — sem treinamento, sem coleta de dados, sem esperar.

Começar a Criar Gratuitamente