o
    |Û‚iù/  ã                   @   sH  U d dl Z d dlmZmZmZ d dlZd dlmZ d dlm  m	Z
 dedefdd„ZdedƒfZeeef ed	< G d
d„ dejƒZG dd„ dejƒZG dd„ dejƒZG dd„ dejƒZG dd„ dejƒZG dd„ dejƒZdedededejjfdd„Z	d&dededededededed ed!ee defd"d#„Zdefd$d%„ZdS )'é    N)ÚListÚOptionalÚTupleÚxÚreturnc                 C   s   dddt  d|  d ¡   S )aŒ  The metric defined by ITU-T P.862 is often called 'PESQ score', which is defined
    for narrow-band signals and has a value range of [-0.5, 4.5] exactly. Here, we use the metric
    defined by ITU-T P.862.2, commonly known as 'wide-band PESQ' and will be referred to as "PESQ score".

    Args:
        x (float): Narrow-band PESQ score.

    Returns:
        (float): Wide-band PESQ score.
    g+‡ÙÎ÷ï?gÿÿÿÿÿÿ@é   g;pÎˆÒÞõ¿gÜ×sF”@)ÚmathÚexp)r   © r
   úd/home/ubuntu/maya3_transcribe/venv/lib/python3.10/site-packages/torchaudio/models/squim/objective.pyÚtransform_wb_pesq_range	   s   r   ç      ð?g      @Ú	PESQRangec                       sF   e Zd Zd
deeef ddf‡ fdd„Zdejdejfdd	„Z‡  Z	S )ÚRangeSigmoid©ç        r   Ú	val_ranger   Nc                    s<   t t| ƒ ¡  t|tƒrt|ƒdksJ ‚|| _t ¡ | _	d S )Né   )
Úsuperr   Ú__init__Ú
isinstanceÚtupleÚlenr   ÚnnÚSigmoidÚsigmoid)Úselfr   ©Ú	__class__r
   r   r       s   zRangeSigmoid.__init__r   c                 C   s,   |   |¡| jd | jd   | jd  }|S )Nr   r   )r   r   ©r   r   Úoutr
   r
   r   Úforward&   s   (zRangeSigmoid.forward)r   )
Ú__name__Ú
__module__Ú__qualname__r   Úfloatr   ÚtorchÚTensorr!   Ú__classcell__r
   r
   r   r   r      s     r   c                       sF   e Zd ZdZddededdf‡ fdd	„Zd
ejdejfdd„Z‡  Z	S )ÚEncoderzýEncoder module that transform 1D waveform to 2D representations.

    Args:
        feat_dim (int, optional): The feature dimension after Encoder module. (Default: 512)
        win_len (int, optional): kernel size in the Conv1D layer. (Default: 32)
    é   é    Úfeat_dimÚwin_lenr   Nc                    s,   t t| ƒ ¡  tjd|||d dd| _d S )Nr   r   F)ÚstrideÚbias)r   r)   r   r   ÚConv1dÚconv1d)r   r,   r-   r   r
   r   r   3   s   zEncoder.__init__r   c                 C   s    |j dd}t |  |¡¡}|S )a  Apply waveforms to convolutional layer and ReLU layer.

        Args:
            x (torch.Tensor): Input waveforms. Tensor with dimensions `(batch, time)`.

        Returns:
            (torch,Tensor): Feature Tensor with dimensions `(batch, channel, frame)`.
        r   ©Údim)Ú	unsqueezeÚFÚrelur1   r   r
   r
   r   r!   8   s   	zEncoder.forward)r*   r+   )
r"   r#   r$   Ú__doc__Úintr   r&   r'   r!   r(   r
   r
   r   r   r)   +   s    r)   c                       sJ   e Zd Zddededededdf
‡ fdd	„Zd
ejdejfdd„Z	‡  Z
S )Ú	SingleRNNr   Úrnn_typeÚ
input_sizeÚhidden_sizeÚdropoutr   Nc                    sR   t t| ƒ ¡  || _|| _|| _tt|ƒ||d|ddd| _t 	|d |¡| _
d S )Nr   T)r=   Úbatch_firstÚbidirectionalr   )r   r9   r   r:   r;   r<   Úgetattrr   ÚrnnÚLinearÚproj)r   r:   r;   r<   r=   r   r
   r   r   G   s   ú	zSingleRNN.__init__r   c                 C   s   |   |¡\}}|  |¡}|S ©N)rA   rC   )r   r   r    Ú_r
   r
   r   r!   Y   s   
zSingleRNN.forward)r   )r"   r#   r$   Ústrr8   r%   r   r&   r'   r!   r(   r
   r
   r   r   r9   F   s    $r9   c                       s¾   e Zd ZdZ							dd	ed
ededededededdf‡ fdd„Zdejde	ejef fdd„Z
dejde	ejef fdd„Zdejdedejfdd„Zdejdejfdd„Z‡  ZS )ÚDPRNNaÏ  *Dual-path recurrent neural networks (DPRNN)* :cite:`luo2020dual`.

    Args:
        feat_dim (int, optional): The feature dimension after Encoder module. (Default: 64)
        hidden_dim (int, optional): Hidden dimension in the RNN layer of DPRNN. (Default: 128)
        num_blocks (int, optional): Number of DPRNN layers. (Default: 6)
        rnn_type (str, optional): Type of RNN in DPRNN. Valid options are ["RNN", "LSTM", "GRU"]. (Default: "LSTM")
        d_model (int, optional): The number of expected features in the input. (Default: 256)
        chunk_size (int, optional): Chunk size of input for DPRNN. (Default: 100)
        chunk_stride (int, optional): Stride of chunk input for DPRNN. (Default: 50)
    é@   é€   é   ÚLSTMé   éd   é2   r,   Ú
hidden_dimÚ
num_blocksr:   Úd_modelÚ
chunk_sizeÚchunk_strider   Nc           	         sÖ   t t| ƒ ¡  || _t g ¡| _t g ¡| _t g ¡| _t g ¡| _	t
|ƒD ].}| j t|||ƒ¡ | j t|||ƒ¡ | j tjd|dd¡ | j	 tjd|dd¡ q&t t ||d¡t ¡ ¡| _|| _|| _d S )Nr   g:Œ0âŽyE>)Úeps)r   rG   r   rP   r   Ú
ModuleListÚrow_rnnÚcol_rnnÚrow_normÚcol_normÚrangeÚappendr9   Ú	GroupNormÚ
SequentialÚConv2dÚPReLUÚconvrR   rS   )	r   r,   rO   rP   r:   rQ   rR   rS   rE   r   r
   r   r   m   s"   
þ
zDPRNN.__init__r   c                 C   sF   |j d }| j| j|| j  | j  }t || j|| j g¡}||fS )Néÿÿÿÿ)ÚshaperR   rS   r5   Úpad)r   r   Úseq_lenÚrestr    r
   r
   r   Ú	pad_chunk‹   s   
zDPRNN.pad_chunkc           	      C   s°   |   |¡\}}|j\}}}|d d …d d …d | j …f  ¡  ||d| j¡}|d d …d d …| jd …f  ¡  ||d| j¡}tj||gdd}| ||d| j¡ dd¡ ¡ }||fS )Nra   é   r2   r   )	rf   rb   rS   Ú
contiguousÚviewrR   r&   ÚcatÚ	transpose)	r   r   r    re   Ú
batch_sizer,   rd   Ú	segments1Ú	segments2r
   r
   r   Úchunking”   s   0.zDPRNN.chunkingre   c           	      C   sú   |j \}}}}| dd¡ ¡  ||d| jd ¡}|d d …d d …d d …d | j…f  ¡  ||d¡d d …d d …| jd …f }|d d …d d …d d …| jd …f  ¡  ||d¡d d …d d …d | j …f }|| }|dkrw|d d …d d …d | …f }| ¡ }|S )Nr   rg   ra   r   )rb   rk   rh   ri   rR   rS   )	r   r   re   rl   r3   rE   r    Úout1Úout2r
   r
   r   ÚmergingŸ   s   "HJzDPRNN.mergingc                 C   s*  |   |¡\}}|j\}}}}|}t| j| j| j| jƒD ]d\}}	}
}| dddd¡ ¡  	|| |d¡ ¡ }||ƒ}| 	|||d¡ dddd¡ ¡ }|	|ƒ}|| }| dddd¡ ¡  	|| |d¡ ¡ }|
|ƒ}| 	|||d¡ dddd¡ ¡ }||ƒ}|| }q|  
|¡}|  ||¡}| dd¡ ¡ }|S )Nr   rg   r   r   ra   )ro   rb   ÚziprV   rX   rW   rY   Úpermuterh   ri   r`   rr   rk   )r   r   re   rl   rE   Údim1Údim2r    rV   rX   rW   rY   Úrow_inÚrow_outÚcol_inÚcol_outr
   r
   r   r!   ª   s$   "& & 

zDPRNN.forward)rH   rI   rJ   rK   rL   rM   rN   )r"   r#   r$   r7   r8   rF   r   r&   r'   r   rf   ro   rr   r!   r(   r
   r
   r   r   rG   `   s<    øþýüûúùø	÷	rG   c                       s>   e Zd Zd
deddf‡ fdd„Zdejdejfdd	„Z‡  ZS )ÚAutoPoolr   Úpool_dimr   Nc                    s>   t t| ƒ ¡  || _tj|d| _|  dt t	 
d¡¡¡ d S )Nr2   Úalphar   )r   r{   r   r|   r   ÚSoftmaxÚsoftmaxÚregister_parameterÚ	Parameterr&   Úones)r   r|   r   r
   r   r   Á   s   zAutoPool.__init__r   c                 C   s0   |   t || j¡¡}tjt ||¡| jd}|S )Nr2   )r   r&   Úmulr}   Úsumr|   )r   r   Úweightr    r
   r
   r   r!   Ç   s   zAutoPool.forward)r   )	r"   r#   r$   r8   r   r&   r'   r!   r(   r
   r
   r   r   r{   À   s    r{   c                       sN   e Zd ZdZdejdejdejf‡ fdd„Zdej	de
ej	 fd	d
„Z‡  ZS )ÚSquimObjectiveaÙ  Speech Quality and Intelligibility Measures (SQUIM) model that predicts **objective** metric scores
    for speech enhancement (e.g., STOI, PESQ, and SI-SDR).

    Args:
        encoder (torch.nn.Module): Encoder module to transform 1D waveform to 2D feature representation.
        dprnn (torch.nn.Module): DPRNN module to model sequential feature.
        branches (torch.nn.ModuleList): Transformer branches in which each branch estimate one objective metirc score.
    ÚencoderÚdprnnÚbranchesc                    s$   t t| ƒ ¡  || _|| _|| _d S rD   )r   r†   r   r‡   rˆ   r‰   )r   r‡   rˆ   r‰   r   r
   r   r   ×   s   
zSquimObjective.__init__r   r   c                 C   sz   |j dkrtd|j › dƒ‚|tj|d dddd d  }|  |¡}|  |¡}g }| jD ]}| ||ƒjdd	¡ q-|S )
zá
        Args:
            x (torch.Tensor): Input waveforms. Tensor with dimensions `(batch, time)`.

        Returns:
            List(torch.Tensor): List of score Tenosrs. Each Tensor is with dimension `(batch,)`.
        r   z/The input must be a 2D Tensor. Found dimension Ú.r   T)r3   Úkeepdimg      à?é   r2   )	ÚndimÚ
ValueErrorr&   Úmeanr‡   rˆ   r‰   r[   Úsqueeze)r   r   r    ÚscoresÚbranchr
   r
   r   r!   â   s   
 


zSquimObjective.forward)r"   r#   r$   r7   r   ÚModulerU   r   r&   r'   r   r!   r(   r
   r
   r   r   r†   Í   s    	þýü"r†   rQ   ÚnheadÚmetricc                 C   s²   t j| || d ddd}tƒ }|dkr't  t  | | ¡t  ¡ t  | d¡tƒ ¡}n+|dkrAt  t  | | ¡t  ¡ t  | d¡ttd¡}nt  t  | | ¡t  ¡ t  | d¡¡}t  |||¡S )	al  Create branch module after DPRNN model for predicting metric score.

    Args:
        d_model (int): The number of expected features in the input.
        nhead (int): Number of heads in the multi-head attention model.
        metric (str): The metric name to predict.

    Returns:
        (nn.Module): Returned module to predict corresponding metric score.
    é   r   T)r=   r>   Ústoir   Úpesq)r   )r   ÚTransformerEncoderLayerr{   r]   rB   r_   r   r   )rQ   r”   r•   Úlayer1Úlayer2Úlayer3r
   r
   r   Ú_create_branchõ   s$   

ü

ü"r   r,   r-   rO   rP   r:   rR   rS   c	                 C   sb   |du r|d }t | |ƒ}	t| ||||||ƒ}
t t||dƒt||dƒt||dƒg¡}t|	|
|ƒS )aÃ  Build a custome :class:`torchaudio.models.squim.SquimObjective` model.

    Args:
        feat_dim (int, optional): The feature dimension after Encoder module.
        win_len (int): Kernel size in the Encoder module.
        d_model (int): The number of expected features in the input.
        nhead (int): Number of heads in the multi-head attention model.
        hidden_dim (int): Hidden dimension in the RNN layer of DPRNN.
        num_blocks (int): Number of DPRNN layers.
        rnn_type (str): Type of RNN in DPRNN. Valid options are ["RNN", "LSTM", "GRU"].
        chunk_size (int): Chunk size of input for DPRNN.
        chunk_stride (int or None, optional): Stride of chunk input for DPRNN.
    Nr   r—   r˜   Úsisdr)r)   rG   r   rU   r   r†   )r,   r-   rQ   r”   rO   rP   r:   rR   rS   r‡   rˆ   r‰   r
   r
   r   Úsquim_objective_model  s   



ýÿrŸ   c                
   C   s   t dddddddddS )zSBuild :class:`torchaudio.models.squim.SquimObjective` model with default arguments.rL   rH   r–   r   rK   éG   )r,   r-   rQ   r”   rO   rP   r:   rR   )rŸ   r
   r
   r
   r   Úsquim_objective_base;  s   ør¡   rD   )r   Útypingr   r   r   r&   Útorch.nnr   Útorch.nn.functionalÚ
functionalr5   r%   r   r   Ú__annotations__r“   r   r)   r9   rG   r{   r†   r8   rF   Úmodulesr   rŸ   r¡   r
   r
   r
   r   Ú<module>   sN   
 ü`()÷ÿþýüûúùø	÷

ö&