o
    %Ý«i!   ã                   @   s<   d Z ddlZddlmZ G dd„ deƒZG dd„ deƒZdS )aO   Specifies the inference interfaces for speech and audio encoders.

Authors:
 * Aku Rouhe 2021
 * Peter Plantinga 2021
 * Loren Lugosch 2020
 * Mirco Ravanelli 2020
 * Titouan Parcollet 2021
 * Abdel Heba 2021
 * Andreas Nautsch 2022, 2023
 * Pooneh Mousavi 2023
 * Sylvain de Langen 2023
 * Adel Moumen 2023
 * Pradnya Kandarkar 2023
é    N)Ú
Pretrainedc                   @   s.   e Zd ZdZdgZdd„ Zdd„ Zdd„ Zd	S )
ÚWaveformEncoderaV  A ready-to-use waveformEncoder model

    It can be used to wrap different embedding models such as SSL ones (wav2vec2)
    or speaker ones (Xvector) etc. Two functions are available: encode_batch and
    encode_file. They can be used to obtain the embeddings directly from an audio
    file or from a batch of audio tensors respectively.

    The given YAML must contain the fields specified in the *_NEEDED[] lists.

    Arguments
    ---------
    See ``Pretrained``

    Example
    -------
    >>> from speechbrain.inference.encoders import WaveformEncoder
    >>> tmpdir = getfixture("tmpdir")
    >>> ssl_model = WaveformEncoder.from_hparams(
    ...     source="speechbrain/ssl-wav2vec2-base-libri",
    ...     savedir=tmpdir,
    ... ) # doctest: +SKIP
    >>> ssl_model.encode_file("samples/audio_samples/example_fr.wav") # doctest: +SKIP
    Úencoderc                 K   s<   | j |fi |¤Ž}| d¡}t dg¡}|  ||¡}|d S )ah  Encode the given audiofile into a sequence of embeddings.

        Arguments
        ---------
        path : str
            Path to audio file which to encode.
        **kwargs : dict
            Arguments forwarded to ``load_audio``

        Returns
        -------
        torch.Tensor
            The audiofile embeddings produced by this system.
        r   ç      ð?Ú
embeddings)Ú
load_audioÚ	unsqueezeÚtorchÚtensorÚencode_batch)ÚselfÚpathÚkwargsÚwaveformÚbatchÚ
rel_lengthÚresults© r   úR/home/ubuntu/.local/lib/python3.10/site-packages/speechbrain/inference/encoders.pyÚencode_file1   s
   
zWaveformEncoder.encode_filec                 C   s4   |  ¡ }| | j¡| | j¡}}| j ||¡}|S )a¨  Encodes the input audio into a sequence of hidden states

        The waveforms should already be in the model's desired format.

        Arguments
        ---------
        wavs : torch.Tensor
            Batch of waveforms [batch, time, channels] or [batch, time]
            depending on the model.
        wav_lens : torch.Tensor
            Lengths of the waveforms relative to the longest one in the
            batch, tensor of shape [batch]. The longest one should have
            relative length 1.0 and others len(waveform) / max_length.
            Used for ignoring padding.

        Returns
        -------
        torch.Tensor
            The encoded batch
        )ÚfloatÚtoÚdeviceÚmodsr   )r   ÚwavsÚwav_lensÚencoder_outr   r   r   r   G   s   zWaveformEncoder.encode_batchc                 C   ó   |   ||¡S ©zRuns the encoder©r   )r   r   r   r   r   r   Úforwarda   ó   zWaveformEncoder.forwardN)Ú__name__Ú
__module__Ú__qualname__Ú__doc__ÚMODULES_NEEDEDr   r   r    r   r   r   r   r      s    r   c                   @   sL   e Zd ZdZddgZddd„Zdd	„ Zd
d„ Zdd„ Zddd„Z	dd„ Z
dS )ÚMelSpectrogramEncodera¥  A MelSpectrogramEncoder class created for the Zero-Shot Multi-Speaker TTS models.

    This is for speaker encoder models using the PyTorch MelSpectrogram transform for compatibility with the
    current TTS pipeline.

    This class can be used to encode a single waveform, a single mel-spectrogram, or a batch of mel-spectrograms.

    Arguments
    ---------
    See ``Pretrained``

    Example
    -------
    >>> import torchaudio
    >>> from speechbrain.inference.encoders import MelSpectrogramEncoder
    >>> # Model is downloaded from the speechbrain HuggingFace repo
    >>> tmpdir = getfixture("tmpdir")
    >>> encoder = MelSpectrogramEncoder.from_hparams(
    ...     source="speechbrain/tts-ecapa-voxceleb",
    ...     savedir=tmpdir,
    ... ) # doctest: +SKIP

    >>> # Compute embedding from a waveform (sample_rate must match the sample rate of the encoder)
    >>> signal, fs = torchaudio.load("tests/samples/single-mic/example1.wav") # doctest: +SKIP
    >>> spk_emb = encoder.encode_waveform(signal) # doctest: +SKIP

    >>> # Compute embedding from a mel-spectrogram (sample_rate must match the sample rate of the ecoder)
    >>> mel_spec = encoder.mel_spectogram(audio=signal) # doctest: +SKIP
    >>> spk_emb = encoder.encode_mel_spectrogram(mel_spec) # doctest: +SKIP

    >>> # Compute embeddings for a batch of mel-spectrograms
    >>> spk_embs = encoder.encode_mel_spectrogram_batch(mel_spec) # doctest: +SKIP
    Ú
normalizerÚembedding_modelé   çñhãˆµøä>c                 C   s   t  t j||d| ¡S )z+Dynamic range compression for audio signals)Úmin)r	   ÚlogÚclamp)r   ÚxÚCÚclip_valr   r   r   Údynamic_range_compression‹   s   z/MelSpectrogramEncoder.dynamic_range_compressionc                 C   s~   ddl m} |j| jj| jj| jj| jj| jj| jj	| jj
| jj| jj| jj| jjd |j¡}||ƒ}| jjr=|  |¡}|S )zòcalculates MelSpectrogram for a raw audio signal

        Arguments
        ---------
        audio : torch.tensor
            input audio signal

        Returns
        -------
        mel : torch.Tensor
            Mel-spectrogram
        r   )Ú
transforms)Úsample_rateÚ
hop_lengthÚ
win_lengthÚn_fftÚn_melsÚf_minÚf_maxÚpowerÚ
normalizedÚnormÚ	mel_scale)Ú
torchaudior3   ÚMelSpectrogramÚhparamsr4   r5   r6   r7   Ún_mel_channelsÚmel_fminÚmel_fmaxr;   Úmel_normalizedr=   r>   r   r   r2   )r   Úaudior3   Úaudio_to_melÚmelr   r   r   Úmel_spectogram   s(   õô
z$MelSpectrogramEncoder.mel_spectogramc                 C   s"   |  | j¡}| j|d}|  |¡S )zú
        Encodes a single waveform

        Arguments
        ---------

        wav : torch.Tensor
            waveform

        Returns
        -------
        encoder_out : torch.Tensor
            Speaker embedding for the input waveform
        )rF   )r   r   rI   Úencode_mel_spectrogram)r   ÚwavÚmel_specr   r   r   Úencode_waveform³   s   
z%MelSpectrogramEncoder.encode_waveformc                 C   s8   |}t |jƒdkr| d¡}t dg¡}|  ||¡}|S )a  
        Encodes a single mel-spectrograms

        Arguments
        ---------

        mel_spec : torch.Tensor
            Mel-spectrograms

        Returns
        -------
        encoder_out : torch.Tensor
            Speaker embedding for the input mel-spectrogram
        é   r   r   )ÚlenÚshaper   r	   r
   Úencode_mel_spectrogram_batch)r   rL   r   r   r   r   r   r   rJ   Ì   s   
z,MelSpectrogramEncoder.encode_mel_spectrogramNc                 C   sd   |du rt j|jd | jd}| | j¡| | j¡}}t  |dd¡}| j ||¡}| j |¡}|S )ap  
        Encodes a batch of mel-spectrograms

        Arguments
        ---------

        mel_specs : torch.Tensor
            Mel-spectrograms
        lens : torch.Tensor
            Relative lengths of the mel-spectrograms

        Returns
        -------
        encoder_out : torch.Tensor
            Speaker embedding for the input mel-spectrogram batch
        Nr   )r   r*   rN   )	r	   ÚonesrP   r   r   Ú	transposerA   r(   r)   )r   Ú	mel_specsÚlensÚfeatsr   r   r   r   rQ   ç   s   z2MelSpectrogramEncoder.encode_mel_spectrogram_batchc                 C   r   r   r   )r   rT   rU   r   r   r   Ú	__forward  r!   zMelSpectrogramEncoder.__forward)r*   r+   )N)r"   r#   r$   r%   r&   r2   rI   rM   rJ   rQ   Ú_MelSpectrogramEncoder__forwardr   r   r   r   r'   f   s    "
$
 r'   )r%   r	   Ú speechbrain.inference.interfacesr   r   r'   r   r   r   r   Ú<module>   s
    P