o ´©i£ ã!@s<ddlZddlmZddlZddlmZddlZddlmZddlm Z ddl mZddlm Z ddlmZdd lmZdd lmZddlmZde ed efdd„Zdedede ede ededede ede ededededededeede ede ef dd „Zd ejfd!d"„Zd&d#d$„Zed%krœeƒdSdS)'éN)ÚCounter)ÚPath)ÚList)ÚOptional)Úget_commandline_args)Úbuild_tokenizer)ÚTextCleaner)Úg2p_classes)Ústr2bool)Ústr_or_noneÚfieldÚreturncCsÒ| ¡}zBd|vr5|jddd\}}| ¡dkrd}nt|ƒ}|dkr'tdƒ‚| ¡dkr0d}nt|ƒ}nt|ƒ}|d}|dkrEtdƒ‚WntyTtd |›ƒ‚w|dur`td|ƒ}|St|d|ƒ}|S) aConvert field string to slice Note that field string accepts 1-based integer. Examples: >>> field2slice("1-") slice(0, None, None) >>> field2slice("1-3") slice(0, 3, None) >>> field2slice("-3") slice(None, 3, None) ú-é)ÚmaxsplitÚNrz1-based stringzmust be 1 or more valuez)Format error: e.g. '2-', '2-5', or '-5': )ÚstripÚsplitÚintÚ ValueErrorÚRuntimeErrorÚslice)rÚs1Ús2Úslic©rúL/home/ubuntu/.local/lib/python3.10/site-packages/funasr/bin/tokenize_text.pyÚfield2slices2 €ÿ ÿrÚinputÚoutputÚ delimiterÚ token_typeÚspace_symbolÚnon_linguistic_symbolsÚbpemodelÚ log_levelÚwrite_vocabularyÚvocabulary_sizeÚremove_non_linguistic_symbolsÚcutoffÚ add_symbolÚcleanerÚg2pc s²tj|dd|dkrtj}n t|ƒjddd}|dkr tj}nt|ƒ}|jjddd|jd dd}t |ƒ}t |||||||d }tƒ}|durMt|ƒ}|D]E}| ¡}|durq| |¡}||}|durld |¡}n| |¡}||ƒ}| |¡}| s‡| d |¡d¡qO|D] }||d 7<q‰qO| s™dS| D]%}z | d¡\}}Wnty´td|›ƒ‚w| ¡}||vrÀ||=q›tt‡fdd„t| ¡dd„dƒƒ}| dkrï| t| ƒkråtd| ›ƒ‚|d| t| ƒ…}| D]8}z | d¡\}}t|ƒ}Wntytd|›ƒ‚w| ¡}|dkr!t|ƒd |}| ||df¡qñ|D]\}}| |d¡q,t| ¡ƒ}tdd„|Dƒƒ}t d|||d›d¡dS)Nz>%(asctime)s (%(module)s:%(lineno)d) %(levelname)s: %(message)s)ÚlevelÚformatrÚrzutf-8)ÚencodingT)ÚparentsÚexist_okÚw)r!r$r r"r#r(Úg2p_typeú Ú rú:z Format error: e.g. ':0': cs|dˆkS©Nrr©Úx©r)rrÚ™sztokenize..cSs |dSr8rr9rrrr<™s )Úkeyrzvocabulary_size is too small: css |]\}}|dur|VqdS©Nr)Ú.0r3ÚcrrrÚ ·s€ztokenize..zOOV rate = édz %)ÚloggingÚbasicConfigÚsysÚstdinrÚopenÚstdoutÚparentÚmkdirrrrrÚrstriprÚjoinÚtext2tokensÚwriterrrÚlistÚfilterÚsortedÚitemsÚlenrÚinsertÚsumÚvaluesÚinfo) rrrr r!r"r#r$r%r&r'r(r)r*r+r,ÚfinÚfoutÚpÚ tokenizerÚcounterÚlineÚtokensÚtÚ symbol_and_idÚsymbolÚidxÚwords_and_countsr3r@Útotal_countÚ invocab_countrr;rÚtokenizeAs–þù ÿÿ€ ÿÿ "rfcCsLtjdtjd}|jddd„dddd |jd ddd d|jddddd|jdddd|jdddgd¢dd|jddddd|jd d!d"d|jd#dd$d|jd%td&d'|jd(td)d*d+|jd,tgd-¢dd.d/|jd0ttdd1d/| d2¡}|jd3td)d4d+|jd5td6d7d+|jd8d6td9d:|jd;t gd|S)?NzTokenize texts)ÚdescriptionÚformatter_classz--log_levelcSs| ¡Sr>)Úupperr9rrrr<Âszget_parser..ÚINFO)ÚCRITICALÚERRORÚWARNINGrjÚDEBUGÚNOTSETzThe verbose level of logging)ÚtypeÚdefaultÚchoicesÚhelpz--inputz-iTz!Input text. - indicates sys.stdin)Úrequiredrsz--outputz-oz#Output text. - indicates sys.stdoutz--fieldz-fz?The target columns of the input text as 1-based integer. e.g 2-)rsz--token_typez-tÚchar)ruÚbpeÚwordÚphnz Token type)rqrrrsz--delimiterz-dz The delimiter)rqrsz--space_symbolzzThe space symbolz --bpemodelzThe bpemodel file pathz--non_linguistic_symbolsz non_linguistic_symbols file path)rprsz--remove_non_linguistic_symbolsFz'Remove non-language-symbols from tokens)rprqrsz --cleaner)NÚtacotronÚjaconvÚ vietnameseÚkorean_cleanerzApply text cleaning)rprrrqrsz--g2pz&Specify g2p method if --token_type=phnzwrite_vocabulary mode relatedz--write_vocabularyz4Write tokens list instead of tokenized text per linez--vocabulary_sizerzVocabulary sizez--cutoffz0cut-off frequency used for write-vocabulary mode)rqrprsz--add_symbolÚappendzBAppend symbol e.g. --add_symbol ':0' --add_symbol ':1')rprqÚactionrs) ÚargparseÚArgumentParserÚArgumentDefaultsHelpFormatterÚadd_argumentrr r Úadd_argument_grouprÚstr)ÚparserÚgrouprrrÚ get_parser»s–þûýûýüûû üüûr‡cCs:ttƒtjdtƒ}| |¡}t|ƒ}tdi|¤ŽdS)N)Úfiler)ÚprintrrEÚstderrr‡Ú parse_argsÚvarsrf)Úcmdr…ÚargsÚkwargsrrrÚmains rÚ__main__r>)rÚcollectionsrrCÚpathlibrrEÚtypingrrÚfunasr.utils.cli_utilsrÚ funasr.tokenizer.build_tokenizerrÚfunasr.tokenizer.cleanerrÚ"funasr.tokenizer.phoneme_tokenizerr Úfunasr.utils.typesr rr„rrÚboolrrfr€r‡rÚ__name__rrrrÚsh.ÿþýüûúùø ÷ öõô óòñ ðz Q ÿ