o }o™i=óz.TextToTextBatch.collate_fn..T©Úbatch_firstÚ padding_valuecSóg|]}|jjd‘qS©r©rÚshaper/r r r!r2>ócSr-r ©rr/r r r!r2?r3cSr7r8©rr:r/r r r!r2@r;cSr-r ©rr/r r r!r2Ar3)r#r$r%r&r')r"rÚtorchÚtensorÚlong©r(r*r+r r r!Ú collate_fn:sûzTextToTextBatch.collate_fnN)r(r)r*rr+rr,r"©rrrrÚstaticmethodrCr r r r!r"3s r"c@sTeZdZUded<ded<ded<ded<ded<ded<ded<eddd„ƒZdS)ÚTextOrAudioToTextBatchrÚ audio_signalsÚaudio_signal_lengthsr#r$r'r%r&r(ú"List[Union[TextToTextItem, tuple]]r+rr*r,ú5Union[TextToTextBatch, TextOrAudioToTextBatch, tuple]c Csdd„|Dƒ}|st||dSdd„|Dƒ}|s tj|||dStdd„|Dƒddd }t d d„|Dƒ¡ ¡}tdd„|Dƒd|d }t dd„|Dƒ¡ ¡}t d d„|Dƒ¡ ¡} tdd„|Dƒdd„|Dƒd|d } t dd„|Dƒdd„|Dƒ¡ ¡}t||||| | |dS)ú Collate function for dataloader Can accept mixed batch of text-to-text items and audio-text items (typical for ASR) cSsg|] }t|tƒr|‘qSr ©Ú isinstancerr/r r r!r2Vóz5TextOrAudioToTextBatch.collate_fn..)r(Úpad_idcSsg|] }t|tƒs|‘qSr rLr/r r r!r2[rNrBcSóg|]}|d‘qSr8r r/r r r!r2eóTgr4cSrP)ér r/r r r!r2frQcSr-r r.r/r r r!r2ir3cSr7r8r9r/r r r!r2kr;cSr-r r>r/r r r!r2lr3cSr-r r<r/r r r!r2or3cSrP)ér r/r r r!r2orQcSr7r8r=r/r r r!r2tr;cSrP)ér r/r r r!r2trQ)rGrHr#r$r'r%r&)rr"rCrr?r@rArF)r(r+r*Ú text_itemsÚ asr_itemsrGrHr#r$r'r%r&r r r!rCNs@ÿýÿþùz!TextOrAudioToTextBatch.collate_fnN)r(rIr+rr*rr,rJrDr r r r!rFEs rFÚtextÚstrr,ú np.ndarraycCs8t |¡}tdurtg|}tdur| t¡t |¡S)zà Helper function for asr tokenization with multiprocessing pool only. Must be defined on the top level. Expects asr_tokenizer_global, asr_bos_id_global, asr_eos_id_global to exist in the current pool process N)Úasr_tokenizer_globalÚtext_to_idsÚasr_bos_id_globalÚasr_eos_id_globalÚappendÚnpÚasarray)rWÚidsr r r!Ú_asr_text_to_tokens‚s rbcCst t|ƒ¡S)zº Helper function for asr tokenization with multiprocessing pool only. Must be defined on the top level. Expects tts_tokenizer_global to exist in the current pool process )r_r`Útts_tokenizer_global)rWr r r!Ú_tts_text_to_tokenssrdÚfilepathÚAnyPathúIterable[Dict[str, Any]]ccsPt|ddd}|D] }t |¡}|VqWdƒdS1s!wYdS)z- Helper function to iterate manifest Úrzutf-8)ÚencodingN)ÚopenÚjsonÚloads)reÚfÚlineÚrecordr r r!Ú_iterate_manifest™s€ þ"ÿrpcs†eZdZUdZded<ded<dZded<dZded<d ed < d/d0‡fd d!„ Zd1d&d'„Zd2d1d)d*„Z d+d,„Z d-d.„Z‡ZS)3ÚTextToTextDatasetBasezu Base class for loading text-to-text manifests Map-style and Iterable datasets should inherit this class rr*r+Nz Optional[int]Ú asr_bos_idÚ asr_eos_idzList[Dict[str, Any]]ÚdatarRé@BrÚmanifest_filepathúUnion[AnyPath, List[AnyPath]]Úspeakers_filepathÚ asr_tokenizerrÚasr_use_start_end_tokenÚboolÚ tts_parserrÚtts_text_normalizerú'Normalizer'Útts_text_normalizer_call_kwargsrÚ min_wordsÚ max_wordsÚtokenizer_workersÚ num_partsÚcurrent_part_indexc" sztƒ ¡|rt|dƒr|jˆ_|rt|dƒr|jˆ_t|dƒr%|jˆ_ndˆ_|ˆ_ |ˆ_ |ˆ_|ˆ_|ˆ_ t|tƒrB| d¡}nt|tƒrJ|g}tƒ}|D]'}tt|ƒ ¡dƒ}| tt| ¡ ¡ƒ¡Wdƒn1sqwYqOt t|ƒ¡ˆ_t dtˆjƒ›d¡t|tƒr–| d¡}nt|tƒrž|g}d d „|Dƒˆ_ d}d}g}g}d‰ˆj D]E}t!t"|ƒƒD]<}|d}t| ¡ƒ}| |krÑ| ksÛn||7}|d 7}q»| #|d¡d|vrî| #|d¡q»| #|d¡d‰q»q³ˆrt $d¡|rt $d|›d|›¡t|ƒ}|d krC||}|| }||}t d| ›d|›d|›d|›¡|||…}|||…}|}dd „t%|ƒDƒˆ_&t|ƒdkr[t $d¡dS|d kr„t $d¡t't!‡fdd„|Dƒt|ƒdƒD]\}}|ˆj&|d<qvn@dd „}t(j)j*||ˆjˆjf|d!%} t't!| jt+|d"d#t|ƒdƒD]\}}|ˆj&|d<q§Wdƒn 1s¿wY~t, -¡|d krót $d¡t't!‡‡fd$d„|Dƒt|ƒdƒD]\}}|ˆj&|d%<qånCˆrút.d&ƒ‚d'd(„}!t(j)j*|!|f|d!%} t't!| jt/|d"d#t|ƒdƒD]\}}|ˆj&|d%<qWdƒn 1s1wY~t, -¡dS))NÚ bos_tokenÚ eos_tokenÚ pad_tokenrú,rhzLoaded z speakerscSsg|]}t|ƒ‘qSr r)r0rer r r!r2årQz2TextToTextDatasetBase.__init__..FrWrRÚtts_text_normalizedrTzLTTS normalization is extremely slow! It is recommended to normalize TTS textzSkipped z utterances with zTaking part of the dataset: z index, total z from z to cSsg|]}tƒ‘qSr )Údict)r0Ú_r r r!r2r3zText-to-text dataset is emptyzŒPreprocessing large text with tokenizer_workers=1 may be slow with TTS tokenizer. Prefer tokenizer_workers=(num_cpu_cores/num_gpus_per_node)c3s|]}ˆ |¡VqdS©N)rb©r0rW©Úselfr r!Ú s€z1TextToTextDatasetBase.__init__..)ÚtotalÚasr_text_tokenscSs"t |¡at |¡at |¡adSrŒ)ÚcopyÚdeepcopyrZr\r])Ú tokenizerÚbos_idÚeos_idr r r!Ú_init_asr_tokenize_process$s zBTextToTextDatasetBase.__init__.._init_asr_tokenize_process)ÚinitializerÚinitargsÚmax_workersiè)Ú chunksizec3s|] }ˆj|ˆdVqdS))Ú normalizeN)rdr©Úneed_normalizationrr r!r@s€Útts_text_tokensz”Normalization with tokenizer_workers > 1 is not implemented. It is not recommended to use normalization on the fly at all, since it's extremely slowcSst |¡adSrŒ)r“r”rc)r•r r r!Ú_init_tts_tokenize_processMszBTextToTextDatasetBase.__init__.._init_tts_tokenize_process)0ÚsuperÚ__init__Úhasattrr–rrr—rsrOr*ryr|Útts_normalizerÚtts_normalizer_kwargsr+rMrXÚsplitrÚsetrjÚ expanduserÚupdateÚmaprÚreadr_r`Úsortedr'rÚinfoÚlenÚmanifest_pathsrrpr^ÚwarningÚrangertÚ enumerateÚ concurrentÚfuturesÚProcessPoolExecutorrbÚgcÚcollectÚNotImplementedErrorrd)"rrvrxryrzr|r+r}rr€rr‚rƒr„r'rermÚnum_skipped_wordsÚnum_skipped_utterancesÚ asr_textsr#Ú manifest_pathÚtmp_itemrWÚ num_wordsÚnum_utterancesÚnum_utterances_partÚstartÚendÚiÚtokenized_textr˜Úpoolr¡©Ú __class__ržr!r£¯sò ÿ€ ò ÿ ÿÿýýÿýú ÿþÿúÿÿÿýü zTextToTextDatasetBase.__init__rWrXr,rYcCsB|j |¡}|jdur|jg|}|jdur| |j¡t |¡SrŒ)ryr[rrrsr^r_r`)rrWrar r r!rb]s z)TextToTextDatasetBase._asr_text_to_tokensTcCs.|r |jj|fi|j¤Ž}| |¡}t |¡SrŒ)r¥rr¦r|r_r`)rrWrÚtokensr r r!rdes z)TextToTextDatasetBase._tts_text_to_tokenscCs<|j|}tt |d¡ ¡t |d¡ ¡t |j¡dS)Nr’r )rrr)rtrr?Ú from_numpyrAÚrandomÚchoicer')rÚindexr1r r r!Ú__getitem__ks ýz!TextToTextDatasetBase.__getitem__cCs t|jƒSrŒ)r¯rtrŽr r r!Ú__len__ss zTextToTextDatasetBase.__len__©rRrurRrRr©rvrwrxrwryrrzr{r|rr+rr}r~rrr€rrrr‚rrƒrr„r©rWrXr,rY)T) rrrÚ__doc__rrrrsr£rbrdrÎrÏÚ __classcell__r r rÇr!rq£s$ ò /rqcs4eZdZdZ dd‡fdd„ Zd dd„Z‡ZS)!ÚTextToTextDatasetz8Text-to-Text Map-style Dataset for hybrid ASR-TTS modelsrRrurvrwrxryrrzr{r|rr+rr}r~rrr€rr‚cs(tƒj||||||||| | |dddS)NrR)rvrxryrzr|r+r}rr€rr‚rƒ©r¢r£)rrvrxryrzr|r+r}rr€rr‚rÇr r!r£zs ôzTextToTextDataset.__init__r(rIr,rJcCótj||j|jdS©rKrB©rFrCr*r+©rr(r r r!rC—ó ÿzTextToTextDataset.collate_fn)rRrurR)rvrwrxrwryrrzr{r|rr+rr}r~rrr€rrrr‚r©r(rIr,rJ)rrrrÓr£rCrÔr r rÇr!rÕwsôrÕcs@eZdZdZ d#d$‡fdd„ Zdd„Zd%d!d"„Z‡ZS)&ÚTextToTextIterableDatasetz‰ Text-to-Text Iterable Dataset for hybrid ASR-TTS models Only part necessary for current process should be loaded and stored rRrurrvrwrxryrrzr{r|rr+rr}r~rrr€rr‚rƒr„cs*tƒj||||||||| | ||| d dS)N) rvrxryrzr|r+r}rr€rr‚rƒr„rÖ)rrvrxryrzr|r+r}rr€rr‚rƒr„rÇr r!r£©s óz"TextToTextIterableDataset.__init__cCs‚tjj ¡}|durd}t|ƒ}ntt t|ƒt|j ƒ¡ƒ}|j }||}t||t|ƒƒ}t ||¡}tj |¡t|j|ƒS)Nr)r?ÚutilsrtÚget_worker_infor¯rÚmathÚceilÚfloatÚnum_workersÚidÚminr_ÚarangerËÚshuffler«rÎ)rÚworker_inforÂrÃÚ per_workerÚ worker_idÚindicesr r r!Ú__iter__És z"TextToTextIterableDataset.__iter__r(rIr,rJcCr×rØrÙrÚr r r!rCÙrÛz$TextToTextIterableDataset.collate_fnrÐrÑrÜ)rrrrÓr£rìrCrÔr r rÇr!rÝ£sò rÝrÒ)rerfr,rg)5Ú __future__rÚconcurrent.futuresr´r“r·rkràrËÚpathlibrÚtypingrrrrr r rrr Únumpyr_r?Útorch.utils.dataÚtorch.nn.utils.rnnrÚ tqdm.autorÚ'nemo.collections.asr.data.audio_to_textrÚ"nemo.collections.common.tokenizersrÚnemo.core.classesrrÚ nemo.utilsrÚ1nemo_text_processing.text_normalization.normalizerÚ ExceptionÚerXrfrr"rFrbrdrprqrÕrÝr r r r!ÚsF,€ÿ = U,