{
  "d_model": 384,
  "nhead": 6,
  "n_codes": 1024,
  "n_rvq": 8,
  "text_vocab_size": 256,
  "text_encoder_layers": 4,
  "ar_layers": 12,
  "nar_layers": 8,
  "dropout": 0.1,
  "label_smoothing": 0.1,
  "n_speakers": 1
}