{
  "d_model": 256,
  "nhead": 4,
  "n_mels": 100,
  "text_vocab_size": 256,
  "text_encoder_layers": 4,
  "audio_encoder_layers": 4,
  "predictor_layers": 6,
  "dropout": 0.1,
  "kl_weight": 0.1,
  "recon_weight": 1.0,
  "spectral_weight": 0.5
}