{
  "d_model": 256,
  "nhead": 4,
  "n_mels": 100,
  "text_vocab_size": 256,
  "text_encoder_layers": 4,
  "audio_encoder_layers": 4,
  "predictor_layers": 6,
  "dropout": 0.1,
  "kl_weight": 0.01,
  "recon_weight": 2.0,
  "spectral_weight": 1.5,
  "downsample_factor": 2
}