o ¡¿¯if<ã@sdZddlZddlmZddlmZmZmZmZm Z ddl Z ddlmZ ddlmZddlmZddlmZdd lmZdd lmZddlmZddlmZdd lmZddlmZddl m!Z!e e j"ƒe dƒkrpddl#m$Z$neddd„ƒZ$Gdd„de!ƒZ%dS)zESPnet2 ASR Transducer model.éN)Úcontextmanager)ÚDictÚListÚOptionalÚTupleÚUnion)Úparse)Úcheck_argument_types)ÚAbsFrontend)Ú AbsSpecAug)Ú AbsDecoder)ÚEncoder)ÚJointNetwork)Úget_transducer_task_io)ÚAbsNormalize)Úforce_gatherable)ÚAbsESPnetModelz1.6.0)ÚautocastTccsdVdS)N©)Úenabledrrúb/home/ubuntu/.local/lib/python3.10/site-packages/espnet2/asr_transducer/espnet_transducer_model.pyrs€ rc+sîeZdZdZ d:d ed eeedfeefde e d e ede ede dededededededededededededededdf*‡fd d!„ Zd"ejd#ejd$ejd%ejdeejeeejfejff d&d'„Zd"ejd#ejd$ejd%ejdeeejff d(d)„Zd"ejd#ejdeejejffd*d+„Zd"ejd#ejdeejejffd,d-„Zd.ejd/ejd0ejd1ejd2ejdeeje ee effd3d4„Zd.ejd0ejd1ejd2ejdejf d5d6„Zd7ejd0ejdejfd8d9„Z‡ZS);ÚESPnetASRTransducerModelaiESPnet2ASRTransducerModel module definition. Args: vocab_size: Size of complete vocabulary (w/ EOS and blank included). token_list: List of token frontend: Frontend module. specaug: SpecAugment module. normalize: Normalization module. encoder: Encoder module. decoder: Decoder module. joint_network: Joint Network module. transducer_weight: Weight of the Transducer loss. fastemit_lambda: FastEmit lambda value. auxiliary_ctc_weight: Weight of auxiliary CTC loss. auxiliary_ctc_dropout_rate: Dropout rate for auxiliary CTC loss inputs. auxiliary_lm_loss_weight: Weight of auxiliary LM loss. auxiliary_lm_loss_smoothing: Smoothing rate for LM loss' label smoothing. ignore_id: Initial padding ID. sym_space: Space symbol. sym_blank: Blank Symbol report_cer: Whether to report Character Error Rate during validation. report_wer: Whether to report Word Error Rate during validation. extract_feats_in_collect_stats: Whether to use extract_feats stats collection. çð?çéÿÿÿÿúúFTÚ vocab_sizeÚ token_list.ÚfrontendÚspecaugÚ normalizeÚencoderÚdecoderÚ joint_networkÚtransducer_weightÚfastemit_lambdaÚauxiliary_ctc_weightÚauxiliary_ctc_dropout_rateÚauxiliary_lm_loss_weightÚauxiliary_lm_loss_smoothingÚ ignore_idÚ sym_spaceÚ sym_blankÚ report_cerÚ report_werÚextract_feats_in_collect_statsÚreturnNcsätƒ ¡tƒs J‚||_||_| ¡|_||_||_||_ ||_ ||_||_||_ ||_d|_d|_|dk|_| dk|_|jrLtj |j|¡|_||_|jr[tj |j|¡|_||_| |_| |_||_| |_||_||_ ||_!dS)z-Construct an ESPnetASRTransducerModel object.Nr)"ÚsuperÚ__init__r rr+Úcopyrr,r-rr r!r"r#r$Úcriterion_transducerÚerror_calculatorÚuse_auxiliary_ctcÚuse_auxiliary_lm_lossÚtorchÚnnÚLinearÚoutput_sizeÚctc_linÚctc_dropout_rateÚlm_linÚlm_loss_smoothingr%r&r'r)r.r/r0)Úselfrrrr r!r"r#r$r%r&r'r(r)r*r+r,r-r.r/r0©Ú __class__rrr39s< z!ESPnetASRTransducerModel.__init__ÚspeechÚspeech_lengthsÚtextÚtext_lengthscKs¤| ¡dksJ|jƒ‚|jd|jdkr&|jdkr&|jdks3nJ|j|j|j|jfƒ‚|jd}|dd…d| ¡…f}| ||¡\}}t|||jd\} } }}|j |j¡| | ¡} | | d¡| d¡¡}| ||| ||¡\}}}d\}}|jr‹| || ||¡}|jr”| | | ¡}|j||j||j|}t| ¡| ¡|dkr²| ¡nd|dkr»| ¡nd||d}t|||f|jƒ\}}}|||fS) aµForward architecture and compute loss(es). Args: speech: Speech sequences. (B, S) speech_lengths: Speech sequences lengths. (B,) text: Label ID sequences. (B, L) text_lengths: Label ID sequences lengths. (B,) kwargs: Contains "utts_id". Return: loss: Main loss value. stats: Task statistics. weight: Task weights. érN)r+é)rrr)ÚlossÚloss_transducerÚaux_ctc_lossÚaux_lm_lossÚcer_transducerÚwer_transducer)ÚdimÚshapeÚmaxÚencoderr+r#Ú set_deviceÚdevicer$Ú unsqueezeÚ_calc_transducer_lossr7Ú_calc_ctc_lossr8Ú _calc_lm_lossr%r'r)ÚdictÚdetachr)rArDrErFrGÚkwargsÚ batch_sizeÚencoder_outÚencoder_out_lensÚ decoder_inÚtargetÚt_lenÚu_lenÚdecoder_outÚ joint_outÚ loss_transÚ cer_transÚ wer_transÚloss_ctcÚloss_lmrJÚstatsÚweightrrrÚforward~spÿþ ýü ý ÿ ûüÿþÿú z ESPnetASRTransducerModel.forwardcKs>|jr| ||¡\}}nt d|j›¡||}}||dœS)aÜCollect features sequences and features lengths sequences. Args: speech: Speech sequences. (B, S) speech_lengths: Speech sequences lengths. (B,) text: Label ID sequences. (B, L) text_lengths: Label ID sequences lengths. (B,) kwargs: Contains "utts_id". Return: {}: "feats": Features sequences. (B, T, D_feats), "feats_lengths": Features sequences lengths. (B,) zkGenerating dummy stats for feats and feats_lengths, because encoder_conf.extract_feats_in_collect_stats is )ÚfeatsÚ feats_lengths)r0Ú_extract_featsÚloggingÚwarning)rArDrErFrGr\rnrorrrÚ collect_featsÝsþÿ z&ESPnetASRTransducerModel.collect_featscCsÚtdƒ-| ||¡\}}|jdur|jr| ||¡\}}|jdur*| ||¡\}}Wdƒn1s4wY| ||¡\}}| d¡| d¡ksVJ| ¡| d¡fƒ‚| d¡| ¡ksiJ| ¡| ¡fƒ‚||fS)aEncoder speech sequences. Args: speech: Speech sequences. (B, S) speech_lengths: Speech sequences lengths. (B,) Return: encoder_out: Encoder outputs. (B, T, D_enc) encoder_out_lens: Encoder outputs lengths. (B,) FNrrH)rrpr Útrainingr!r"ÚsizerR)rArDrErnror^r_rrrrSs$ €ö þþzESPnetASRTransducerModel.encodecCsb| ¡dksJ|jƒ‚|dd…d| ¡…f}|jdur(| ||¡\}}||fS||}}||fS)a?Extract features sequences and features sequences lengths. Args: speech: Speech sequences. (B, S) speech_lengths: Speech sequences lengths. (B,) Return: feats: Features sequences. (B, T, D_feats) feats_lengths: Features sequences lengths. (B,) rHN)rPrQrRr)rArDrErnrorrrrp+s þz'ESPnetASRTransducerModel._extract_featsr^rerarbrcc CsÒ|jdur(zddlm}|d|jd|_Wnty't d¡tdƒYnw| ||||¡}|jsd|j s9|j rd|jdurWddlm }||j|j|j|j|j|j |j d |_| ||¡\} } || | fS|ddfS) a(Compute Transducer loss. Args: encoder_out: Encoder output sequences. (B, T, D_enc) joint_out: Joint Network output sequences (B, T, U, D_joint) target: Target label ID sequences. (B, L) t_len: Encoder output sequences lengths. (B,) u_len: Target label ID sequences lengths. (B,) Return: loss_transducer: Transducer loss value. cer_transducer: Character error rate for Transducer. wer_transducer: Word Error Rate for Transducer. Nr)ÚRNNTLossÚmean)Ú reductionr&zJwarp-rnnt was not installed.Please consult the installation documentation.rH)ÚErrorCalculator)r.r/)r5Úwarprnnt_pytorchrvr&ÚImportErrorrqÚerrorÚexitrtr.r/r6Ú'espnet2.asr_transducer.error_calculatorryr#r$rr,r-)rAr^rerarbrcrvrKryrNrOrrrrWEsD þÿûü ù z.ESPnetASRTransducerModel._calc_transducer_lossc Cs | tjjj||jd¡}tj| dd¡dd}|dk}|| ¡}tj j jddtjjj||||ddd }Wd ƒn1sBwY|| d¡}|S)aMCompute CTC loss. Args: encoder_out: Encoder output sequences. (B, T, D_enc) target: Target label ID sequences. (B, L) t_len: Encoder output sequences lengths. (B,) u_len: Target label ID sequences lengths. (B,) Return: loss_ctc: CTC loss value. )ÚprrHr©rPT)Ú deterministicÚsum)Ú zero_infinityrxN)r=r9r:Ú functionalÚdropoutr>Úlog_softmaxÚ transposeÚcpuÚbackendsÚcudnnÚflagsÚctc_lossru) rAr^rarbrcÚctc_inÚtarget_maskÚ ctc_targetrirrrrX†s$ÿúÿ z'ESPnetASRTransducerModel._calc_ctc_lossrdcCsò| |dd…dd…dd…f¡ d|j¡}| d¡ tj¡}t ¡.| ¡}| |j |jd¡|dk}| |d¡}| d| d¡d|j ¡Wdƒn1sSwYtj jjtj|dd|dd}| | d¡d¡ ¡| d¡}|S)zÕCompute LM loss. Args: decoder_out: Decoder output sequences. (B, U, D_dec) target: Target label ID sequences. (B, L) Return: loss_lm: LM loss value. NrrHrr€Únone)rx)r?ÚviewrÚtyper9Úint64Úno_gradÚcloneÚfill_r@Úmasked_fillÚscatter_rVr:r„Úkl_divr†r‚ru)rArdraÚ lm_loss_inÚ lm_targetÚ true_distÚignorerjrrrrY®s$* ø ýÿz&ESPnetASRTransducerModel._calc_lm_loss)rrrrrrrrrFFT)Ú__name__Ú __module__Ú__qualname__Ú__doc__ÚintrrÚstrrrr rrr rrÚfloatÚboolr3r9ÚTensorrrmrsrSrprWrXrYÚ __classcell__rrrBrrsø$ëþýüûúùø ÷ öõô óòñðïîíìëêEþýüû ù_þýüû ù$þý ü*ÿÿ þþýüûú ùAþýüû ú(þýür)T)&r¡rqÚ contextlibrÚtypingrrrrrr9Úpackaging.versionrÚVÚ typeguardr Ú!espnet2.asr.frontend.abs_frontendr Úespnet2.asr.specaug.abs_specaugrÚ*espnet2.asr_transducer.decoder.abs_decoderrÚ&espnet2.asr_transducer.encoder.encoderr Ú$espnet2.asr_transducer.joint_networkrÚespnet2.asr_transducer.utilsrÚespnet2.layers.abs_normalizerÚ espnet2.torch_utils.device_funcsrÚespnet2.train.abs_espnet_modelrÚ__version__Útorch.cuda.amprrrrrrÚs*