o ´©iH[ã@s–dZddlZddlmZmZmZddlZddlZdd„Z dd„Z dd „Zd;dd„Zdd!ed(ed)ed*ejd"ejf d+d,„Zd-ejd"ejfd.d/„Z d?d0ejd1ejd2ed3ed"eejejejejff d4d5„Z!d6ejd7ed8efd9d:„Z"dS)@zNetwork related utility tools.éN)ÚDictÚListÚTuplecCsNt|tjjƒrt| ¡ƒj}nt|tjƒr|j}n tdt |ƒ›ƒ‚| |¡S)zÞSend tensor into the device of the module. Args: m (torch.nn.Module): Torch module. x (Tensor): Torch tensor. Returns: Tensor: Torch tensor located in the same place as torch module. z3Expected torch.nn.Module or torch.tensor, bot got: )Ú isinstanceÚtorchÚnnÚModuleÚnextÚ parametersÚdeviceÚTensorÚ TypeErrorÚtypeÚto)ÚmÚxr©rú^/home/ubuntu/.local/lib/python3.10/site-packages/funasr/models/transformer/utils/nets_utils.pyÚ to_devices rcCsxt|ƒ}tdd„|Dƒƒ}|dj||g|d ¡dd…¢RŽ |¡}t|ƒD]}||||d|| d¡…f<q(|S)áPerform padding for the list of tensors. Args: xs (List): List of Tensors [(T_1, `*`), (T_2, `*`), ..., (T_B, `*`)]. pad_value (float): Value for padding. Returns: Tensor: Padded tensor (B, Tmax, `*`). Examples: >>> x = [torch.ones(4), torch.ones(2), torch.ones(1)] >>> x [tensor([1., 1., 1., 1.]), tensor([1., 1.]), tensor([1.])] >>> pad_list(x, 0) tensor([[1., 1., 1., 1.], [1., 1., 0., 0.], [1., 0., 0., 0.]]) csó|]}| d¡VqdS©rN©Úsize©Ú.0rrrrÚ 5ó€zpad_list..réN)ÚlenÚmaxÚnewrÚfill_Úrange)ÚxsÚ pad_valueÚn_batchÚmax_lenÚpadÚirrrÚpad_list s. r*c s&t|ƒ}t|djƒ}g}t|ƒD]‰| t‡fdd„|Dƒƒ¡q|dj|g|¢RŽ |¡}t|ƒD]\‰|dkrJ|ˆ|ˆd|ˆ d¡…f<q4|dkrf|ˆ|ˆd|ˆ d¡…d|ˆ d¡…f<q4|dkrŠ|ˆ|ˆd|ˆ d¡…d|ˆ d¡…d|ˆ d¡…f<q4td |¡ƒ‚|S) rrc3s|]}| ˆ¡VqdS©Nrr©r)rrrVrz#pad_list_all_dim..rNéézApad_list_all_dim only support 1-D, 2-D and 3-D tensors, not {}-D.) rÚshaper#Úappendr r!r"rÚ ValueErrorÚformat)r$r%r&Únum_dimÚmax_len_all_dimr(rr,rÚpad_list_all_dim>s" 0@ÿr5éÿÿÿÿc s.ˆdkrtd ˆ¡ƒ‚t|tƒs| ¡}tt|ƒƒ}|dur/|dur)tt|ƒƒ}n| ˆ¡}n|dus5J‚|tt|ƒƒks?J‚t j d|t jd}| d¡ ||¡}| |¡ d¡}||k}|dur•| d¡|ksqJ| d¡|fƒ‚ˆdkr{| ¡ˆ‰t‡fdd„t| ¡ƒDƒƒ} || |¡ |j¡}|S)a™Make mask tensor containing indices of padded part. Args: lengths (LongTensor or List): Batch of lengths (B,). xs (Tensor, optional): The reference tensor. If set, masks will be the same shape as this tensor. length_dim (int, optional): Dimension indicator of the above tensor. See the example. Returns: Tensor: Mask tensor containing indices of padded part. dtype=torch.uint8 in PyTorch 1.2- dtype=torch.bool in PyTorch 1.2+ (including 1.2) Examples: With only lengths. >>> lengths = [5, 3, 2] >>> make_pad_mask(lengths) masks = [[0, 0, 0, 0 ,0], [0, 0, 0, 1, 1], [0, 0, 1, 1, 1]] With the reference tensor. >>> xs = torch.zeros((3, 2, 4)) >>> make_pad_mask(lengths, xs) tensor([[[0, 0, 0, 0], [0, 0, 0, 0]], [[0, 0, 0, 1], [0, 0, 0, 1]], [[0, 0, 1, 1], [0, 0, 1, 1]]], dtype=torch.uint8) >>> xs = torch.zeros((3, 2, 6)) >>> make_pad_mask(lengths, xs) tensor([[[0, 0, 0, 0, 0, 1], [0, 0, 0, 0, 0, 1]], [[0, 0, 0, 1, 1, 1], [0, 0, 0, 1, 1, 1]], [[0, 0, 1, 1, 1, 1], [0, 0, 1, 1, 1, 1]]], dtype=torch.uint8) With the reference tensor and dimension indicator. >>> xs = torch.zeros((3, 6, 6)) >>> make_pad_mask(lengths, xs, 1) tensor([[[0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0], [1, 1, 1, 1, 1, 1]], [[0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0], [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1]], [[0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0], [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1]]], dtype=torch.uint8) >>> make_pad_mask(lengths, xs, 2) tensor([[[0, 0, 0, 0, 0, 1], [0, 0, 0, 0, 0, 1], [0, 0, 0, 0, 0, 1], [0, 0, 0, 0, 0, 1], [0, 0, 0, 0, 0, 1], [0, 0, 0, 0, 0, 1]], [[0, 0, 0, 1, 1, 1], [0, 0, 0, 1, 1, 1], [0, 0, 0, 1, 1, 1], [0, 0, 0, 1, 1, 1], [0, 0, 0, 1, 1, 1], [0, 0, 0, 1, 1, 1]], [[0, 0, 1, 1, 1, 1], [0, 0, 1, 1, 1, 1], [0, 0, 1, 1, 1, 1], [0, 0, 1, 1, 1, 1], [0, 0, 1, 1, 1, 1], [0, 0, 1, 1, 1, 1]]], dtype=torch.uint8) rzlength_dim cannot be 0: {}N©Údtyper6c3s(|]}|dˆfvrtdƒndVqdSr)Úslice)rr)©Ú length_dimrrrØs€&z make_pad_mask..)r1r2rÚlistÚtolistÚintrr rrÚarangeÚint64Ú unsqueezeÚexpandr!ÚdimÚtupler#Ú expand_asrr) Úlengthsr$r;ÚmaxlenÚbsÚ seq_rangeÚseq_range_expandÚseq_length_expandÚmaskÚindrr:rÚ make_pad_maskhs,V rNcCst|||ƒS)a½Make mask tensor containing indices of non-padded part. Args: lengths (LongTensor or List): Batch of lengths (B,). xs (Tensor, optional): The reference tensor. If set, masks will be the same shape as this tensor. length_dim (int, optional): Dimension indicator of the above tensor. See the example. Returns: ByteTensor: mask tensor containing indices of padded part. dtype=torch.uint8 in PyTorch 1.2- dtype=torch.bool in PyTorch 1.2+ (including 1.2) Examples: With only lengths. >>> lengths = [5, 3, 2] >>> make_non_pad_mask(lengths) masks = [[1, 1, 1, 1 ,1], [1, 1, 1, 0, 0], [1, 1, 0, 0, 0]] With the reference tensor. >>> xs = torch.zeros((3, 2, 4)) >>> make_non_pad_mask(lengths, xs) tensor([[[1, 1, 1, 1], [1, 1, 1, 1]], [[1, 1, 1, 0], [1, 1, 1, 0]], [[1, 1, 0, 0], [1, 1, 0, 0]]], dtype=torch.uint8) >>> xs = torch.zeros((3, 2, 6)) >>> make_non_pad_mask(lengths, xs) tensor([[[1, 1, 1, 1, 1, 0], [1, 1, 1, 1, 1, 0]], [[1, 1, 1, 0, 0, 0], [1, 1, 1, 0, 0, 0]], [[1, 1, 0, 0, 0, 0], [1, 1, 0, 0, 0, 0]]], dtype=torch.uint8) With the reference tensor and dimension indicator. >>> xs = torch.zeros((3, 6, 6)) >>> make_non_pad_mask(lengths, xs, 1) tensor([[[1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [0, 0, 0, 0, 0, 0]], [[1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0]], [[1, 1, 1, 1, 1, 1], [1, 1, 1, 1, 1, 1], [0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0], [0, 0, 0, 0, 0, 0]]], dtype=torch.uint8) >>> make_non_pad_mask(lengths, xs, 2) tensor([[[1, 1, 1, 1, 1, 0], [1, 1, 1, 1, 1, 0], [1, 1, 1, 1, 1, 0], [1, 1, 1, 1, 1, 0], [1, 1, 1, 1, 1, 0], [1, 1, 1, 1, 1, 0]], [[1, 1, 1, 0, 0, 0], [1, 1, 1, 0, 0, 0], [1, 1, 1, 0, 0, 0], [1, 1, 1, 0, 0, 0], [1, 1, 1, 0, 0, 0], [1, 1, 1, 0, 0, 0]], [[1, 1, 0, 0, 0, 0], [1, 1, 0, 0, 0, 0], [1, 1, 0, 0, 0, 0], [1, 1, 0, 0, 0, 0], [1, 1, 0, 0, 0, 0], [1, 1, 0, 0, 0, 0]]], dtype=torch.uint8) )rN)rFr$r;rrrÚmake_non_pad_maskÝsVrOcCs^| d¡t|ƒksJ‚|jj| ¡Ž |¡}t|ƒD]\}}||d|…f||d|…f<q|S)a}Mask tensor according to length. Args: xs (Tensor): Batch of input tensor (B, `*`). lengths (LongTensor or List): Batch of lengths (B,). fill (int or float): Value to fill masked part. Returns: Tensor: Batch of masked input tensor (B, `*`). Examples: >>> x = torch.arange(5).repeat(3, 1) + 1 >>> x tensor([[1, 2, 3, 4, 5], [1, 2, 3, 4, 5], [1, 2, 3, 4, 5]]) >>> lengths = [5, 3, 2] >>> mask_by_length(x, lengths) tensor([[1, 2, 3, 4, 5], [1, 2, 3, 0, 0], [1, 2, 0, 0, 0]]) rN)rrÚdatar!r"Ú enumerate)r$rFÚfillÚretr)ÚlrrrÚmask_by_length6s rUcCsÜt|tjƒr|jjdkrddlm}||ƒSt |¡St|t ƒr@ddlm}d|vs.d|vr7t d t|ƒ¡ƒ‚||d|dƒSt|tj ƒrH|Sd t|ƒ¡}zddlm}Wntybt |ƒ‚wt||ƒrj|St |ƒ‚)a{Change to torch.Tensor or ComplexTensor from numpy.ndarray. Args: x: Inputs. It should be one of numpy.ndarray, Tensor, ComplexTensor, and dict. Returns: Tensor or ComplexTensor: Type converted inputs. Examples: >>> xs = np.ones(3, dtype=np.float32) >>> xs = to_torch_tensor(xs) tensor([1., 1., 1.]) >>> xs = torch.ones(3, 4, 5) >>> assert to_torch_tensor(xs) is xs >>> xs = {'real': xs, 'imag': xs} >>> to_torch_tensor(xs) ComplexTensor( Real: tensor([1., 1., 1.]) Imag; tensor([1., 1., 1.]) ) Úcr)Ú ComplexTensorÚrealÚimagzhas 'real' and 'imag' keys: {}zox must be numpy.ndarray, torch.Tensor or a dict like {{'real': torch.Tensor, 'imag': torch.Tensor}}, but got {})rÚnpÚndarrayr8ÚkindÚtorch_complex.tensorrWrÚ from_numpyÚdictr1r2r<rrÚ Exception)rrWÚerrorrrrÚto_torch_tensorUs. ýþ rbcCsØ|dkr t dg¡S|dkr3|dkr3tj|jdtjd}t d¡t dd d d „|Dƒ¡¡|S|dkr;|dvsK|dkrC|dksK|d kr–|dkr–tj|jdtjd}|j d¡r€|j d¡s€|j d¡}tt|jdt|ƒƒƒD] }t||ƒ||<qtnt d¡t dd dd „|Dƒ¡¡|S|dkrï|dkrïtj|j|jdtjd}|j d¡rÙ|j d¡sÙ|j d¡}tt|j|jdt|ƒƒƒD] }t||ƒ||<qÍnt d¡t dd dd „|Dƒ¡¡|S|dkrd|dkrdg}t|jƒD]a}tj|j|dtjd}|j | d¡rD|j | d¡sD|j| d¡}tt|j|dt|ƒƒƒD]}t||ƒ||<q7nt d|d¡t dd dd „|Dƒ¡¡| |¡q|Std ||¡ƒ‚)a\Parse the subsampling factors from the args for the specified `mode` and `arch`. Args: train_args: argument Namespace containing options. mode: one of ('asr', 'mt', 'st') arch: one of ('rnn', 'rnn-t', 'rnn_mix', 'rnn_mulenc', 'transformer') Returns: np.ndarray / List[np.ndarray]: subsampling factors. ÚtransformerrÚmtÚrnnr7z5Subsampling is not performed for machine translation.zsubsample: ú cSóg|]}t|ƒ‘qSr©ÚstrrrrrÚ «óz!get_subsample..Úasr)rezrnn-tÚstÚpÚvggÚ_zTSubsampling is not performed for vgg*. It is performed in max pooling layers at CNN.cSrgrrhrrrrrj½rkÚrnn_mixcSrgrrhrrrrrjËrkÚ rnn_mulencz`Encoder %d: Subsampling is not performed for vgg*. It is performed in max pooling layers at CNN.cSrgrrhrrrrrjÜrkz!Invalid options: mode={}, arch={})rZÚarrayÚonesÚelayersÚint32ÚloggingÚwarningÚinfoÚjoinÚetypeÚendswithÚ startswithÚ subsampleÚsplitr#Úminrr>Ú elayers_sdÚnum_encsr0r1r2)Ú train_argsÚmodeÚarchr~ÚssÚjÚsubsample_listÚidxrrrÚ get_subsample™sd ÿÿ"ÿÿ$ ÿýrŠÚ old_prefixÚ new_prefixÚ state_dictcs`‡fdd„|Dƒ}t|ƒdkrt dˆ›d|›¡|D]}| |¡}| ˆ|¡}|||<qdS)z9Replace keys of old prefix with new prefix in state dict.csg|] }| ˆ¡r|‘qSr)r})rÚk©r‹rrrjçsz%rename_state_dict..rzRename: z -> N)rrwrxÚpopÚreplace)r‹rŒrÚold_keysrŽÚvÚnew_krrrÚrename_state_dictäs ýr•csFeZdZdZd dededdf‡fdd „ Zd ejdejfdd„Z ‡Z S)ÚSwishaÞSwish activation definition. Swish(x) = (beta * x) * sigmoid(x) where beta = 1 defines standard Swish activation. References: https://arxiv.org/abs/2108.12943 / https://arxiv.org/abs/1710.05941v1. E-swish variant: https://arxiv.org/abs/1801.07145. Args: beta: Beta parameter for E-Swish. (beta >= 1. If beta < 1, use standard Swish). use_builtin: Whether to use PyTorch function if available. çð?FÚbetaÚuse_builtinÚreturnNcsLtƒ ¡|ˆ_|dkr‡fdd„ˆ_dS|rtj ¡ˆ_dSdd„ˆ_dS)Nrcsˆj|t |¡Sr+)r˜rÚsigmoid©r©ÚselfrrÚrkz Swish.__init__..cSs|t |¡Sr+)rr›rœrrrrŸs)ÚsuperÚ__init__r˜ÚswishrrÚSiLU)ržr˜r™©Ú __class__rrr¡s zSwish.__init__rcCs | |¡S)zForward computation.)r¢)ržrrrrÚforwards z Swish.forward)r—F)Ú__name__Ú __module__Ú__qualname__Ú__doc__ÚfloatÚboolr¡rrr¦Ú __classcell__rrr¤rr–ðs r–cCs*tjjtjjtjjtjjtdœ}||ƒS)zReturn activation function.)ÚhardtanhÚtanhÚreluÚselur¢)rrÚHardtanhÚTanhÚReLUÚSELUr–)ÚactÚactivation_funcsrrrÚget_activationsû r¸cs2eZdZdZdedededdf‡fdd„Z‡ZS) ÚTooShortUttErrorzÜRaised when the utt is too short for subsampling. Args: message: Error message to display. actual_size: The size that cannot pass the subsampling. limit: The size limit for subsampling. ÚmessageÚactual_sizeÚlimitršNcstƒ |¡||_||_dS)z$Construct a TooShortUttError module.N)r r¡r»r¼)ržrºr»r¼r¤rrr¡+s zTooShortUttError.__init__)r§r¨r©rªrir>r¡rrrr¤rr¹!s& r¹Ú sub_factorrršcCs@|dkr |dkr dS|dkr|dkrdS|dkr|dkrdSd S) a Check if the input is too short for subsampling. Args: sub_factor: Subsampling factor for Conv2DSubsampling. size: Input size. Returns: : Whether an error should be sent. : Size limit for specified subsampling factor. r-r.)Téér¾éé)TrÁ)Fr6r)r½rrrrÚcheck_short_utt3srÂÚ input_sizecCsj|dkrdd|dddfS|dkr dd|ddddfS|dkr1dd|ddddfStdƒ‚)a-Get conv2D second layer parameters for given subsampling factor. Args: sub_factor: Subsampling factor (1/X). input_size: Input size. Returns: : Kernel size for second convolution. : Stride for second convolution. : Conv2DSubsampling output size. r-r.rr¿rÀéz?subsampling_factor parameter should be set to either 2, 4 or 6.)r1)r½rÃrrrÚsub_factor_to_paramsIs rÅÚ chunk_sizeÚleft_chunk_sizercCsrtj|||tjd}t|ƒD]'}|dkrd}nt||||dƒ}t||d||ƒ}d||||…f<q|S)a£Create chunk mask for the subsequent steps (size, size). Reference: https://github.com/k2-fsa/icefall/blob/master/icefall/utils.py Args: size: Size of the source mask. chunk_size: Number of frames in chunk. left_chunk_size: Size of the left context in chunks (0 means full context). device: Device for the mask tensor. Returns: mask: Chunk mask. (size, size) )rr8rrT)rÚzerosr¬r#r r€)rrÆrÇrrLr)ÚstartÚendrrrÚmake_chunk_mask`srËrFcCs8| ¡}| d¡}t |¡ ||¡ |¡}|| d¡kS)zñCreate source mask for given lengths. Reference: https://github.com/k2-fsa/icefall/blob/master/icefall/utils.py Args: lengths: Sequence lengths. (B,) Returns: : Mask for the sequence lengths. (B, max_len) rr)r rrr?rBrrA)rFr'Ú batch_sizeÚexpanded_lengthsrrrÚmake_source_mask‚s rÎÚlabelsÚencoder_out_lensÚ ignore_idÚblank_idcs¼ddttjdtfdd„}|j}‡fdd„|Dƒ}|d |g¡‰|‡fdd„|Dƒ|ƒ |¡}|||ƒ tj¡ |¡}t t t|ƒƒ}t |¡ |¡} t d d„|Dƒ¡ |¡} ||| | fS)a„Get Transducer loss I/O. Args: labels: Label ID sequences. (B, L) encoder_out_lens: Encoder output lengths. (B,) ignore_id: Padding symbol ID. blank_id: Blank symbol ID. Returns: decoder_in: Decoder inputs. (B, U) target: Target label ID sequences. (B, U) t_len: Time lengths. (B,) u_len: Label lengths. (B,) rrÏÚ padding_valuecSstt|ƒ}|dj|tdd„|Dƒƒg|d ¡dd…¢RŽ |¡}t|ƒD]}||||d|| d¡…f<q&|S)zþCreate padded batch of labels from a list of labels sequences. Args: labels: Labels sequences. [B x (?)] padding_value: Padding value. Returns: labels: Batch of padded labels sequences. (B,) rcsrrrrrrrr»rz;get_transducer_task_io..pad_list..rN)rr!r rr"r#)rÏrÓrÌÚpaddedr)rrrr*¬sÿÿý z(get_transducer_task_io..pad_listcsg|]}||ˆk‘qSrr©rÚy)rÑrrrjÆsz*get_transducer_task_io..csg|]}tjˆ|gdd‘qS)r©rC)rÚcat)rÚlabel)ÚblankrrrjÊscSsg|]}| d¡‘qS©rrrÕrrrrjÒsNrÛ)rrrr>rr!rrrvr<ÚmapÚ IntTensor)rÏrÐrÑrÒr*rÚlabels_unpadÚ decoder_inÚtargetÚt_lenÚu_lenr)rÚrÑrÚget_transducer_task_io–sÿþrãÚtÚpad_lenrCcCsR| |¡|kr |St|jƒ}|| |¡||<tj|tj||j|jdœŽg|dS)zMPad the tensor `t` at `dim` to the length `pad_len` with right padding zeros.)r8rr×)rr<r/rrØrÈr8r)rärårCÚpad_sizerrrÚ pad_to_len×s $rç)Nr6N)Nr6rÛr)r6r)#rªrwÚtypingrrrÚnumpyrZrrr*r5rNrOrUrbrŠrirr•rrr–r¸r`r¹r>r¬rÂrÅrrËrÎrãrçrrrrÚs^ * u YD K# üÿþýü û"üÿþýü ûA