o Ï¯i<ã@sÄdZddlZddlZddlZddlmZddlmZmZddl Z ddl ZddlZeƒdd„ƒZ eƒdd„ƒZd d „Zdd„Zd d„ZGdd„deƒZeƒZddeeeefdedejfdd„ZdS)zp CLIP tokenizer Copied from https://github.com/openai/CLIP. Originally MIT License, Copyright (c) 2021 OpenAI. éN)Ú lru_cache)ÚUnionÚListcCstj tj tj t¡¡d¡S)Nzbpe_simple_vocab_16e6.txt.gz)ÚosÚpathÚjoinÚdirnameÚabspathÚ__file__©rrúT/home/ubuntu/.local/lib/python3.10/site-packages/laion_clap/clap_module/tokenizer.pyÚdefault_bpesr cCs°tttdƒtdƒdƒƒtttdƒtdƒdƒƒtttdƒtdƒdƒƒ}|dd…}d }td ƒD]}||vrI| |¡| d |¡|d7}q3dd„|Dƒ}tt||ƒƒS) a9 Returns list of utf-8 byte and a corresponding list of unicode strings. The reversible bpe codes work on unicode strings. This means you need a large # of unicode characters in your vocab if you want to avoid UNKs. When you're at something like a 10B token dataset you end up needing around 5K for decent coverage. This is a signficant percentage of your normal, say, 32K bpe vocab. To avoid that, we want lookup tables between utf-8 bytes and unicode strings. And avoids mapping to whitespace/control characters the bpe code barfs on. ú!ú~éõÂ¡õÂ¬õÂ®õÃ¿NrécSsg|]}t|ƒ‘qSr)Úchr)Ú.0ÚnrrrÚ (óz$bytes_to_unicode..)ÚlistÚrangeÚordÚappendÚdictÚzip)ÚbsÚcsrÚbrrrÚbytes_to_unicodesN €r$cCs6tƒ}|d}|dd…D]}| ||f¡|}q |S)zReturn set of symbol pairs in a word. Word is represented as tuple of symbols (symbols being variable-length strings). rrN)ÚsetÚadd)ÚwordÚpairsÚ prev_charÚcharrrrÚ get_pairs,sr+cCs"t |¡}t t |¡¡}| ¡S©N)ÚftfyÚfix_textÚhtmlÚunescapeÚstrip©ÚtextrrrÚbasic_clean8s r4cCst dd|¡}| ¡}|S)Nz\s+ú )ÚreÚsubr1r2rrrÚwhitespace_clean>sr8c@s:eZdZeƒdfdefdd„Zdd„Zdd„Zd d „ZdS)ÚSimpleTokenizerNÚbpe_pathcsHtƒˆ_dd„ˆj ¡Dƒˆ_t |¡ ¡ d¡ d¡}|dd…}dd„|Dƒ}t tƒ ¡ƒ}|d d„|Dƒ}|D] }| d |¡¡q;|sMddg}nddg|}| |¡tt|tt|ƒƒƒƒˆ_d d„ˆj ¡Dƒˆ_tt|tt|ƒƒƒƒˆ_dd„|Dƒˆ_d |¡}t |dtj¡ˆ_tˆjƒˆ_‡fdd„|Dƒˆ_dS)NcSói|]\}}||“qSrr©rÚkÚvrrrÚ Góz,SimpleTokenizer.__init__..úutf-8Ú riÿ¾cSsg|]}t| ¡ƒ‘qSr)ÚtupleÚsplit)rÚmergerrrrJsz,SimpleTokenizer.__init__..cSsg|]}|d‘qS)úr)rr>rrrrLrÚúú cSr;rrr<rrrr?Ur@cSsi|]}||“qSrr©rÚtrrrr?Wóú|z:|'s|'t|'re|'ve|'m|'ll|'d|[\p{L}]+|[\p{N}]|[^\s\p{L}\p{N}]+cóg|]}ˆj|‘qSr©ÚencoderrJ©Úselfrrr\r@)r$Úbyte_encoderÚitemsÚbyte_decoderÚgzipÚopenÚreadÚdecoderDrÚvaluesrrÚextendrr rÚlenrPÚdecoderÚ bpe_ranksÚcacher6ÚcompileÚ IGNORECASEÚpatÚ vocab_sizeÚall_special_ids)rRr:Úspecial_tokensÚmergesÚvocabrEÚspecialrrQrÚ__init__Es* zSimpleTokenizer.__init__c sj|ˆjvr ˆj|St|dd…ƒ|ddf}t|ƒ}|s#|dS t|‡fdd„d}|ˆjvr4nu|\}}g}d}|t|ƒkr—z| ||¡} | ||| …¡| }Wn| ||d…¡Yn3|||kr†|t|ƒdkr†||d|kr†| ||¡|d 7}n| ||¡|d7}|t|ƒksBt|ƒ}|}t|ƒdkr¤nt|ƒ}q$d |¡}|ˆj|<|S)NéÿÿÿÿrFTcsˆj |tdƒ¡S)NÚinf)r^ÚgetÚfloat)ÚpairrQrrÚhrLz%SimpleTokenizer.bpe..)Úkeyrrér5) r_rCr+Úminr^r\Úindexr[rr) rRÚtokenr'r(ÚbigramÚfirstÚsecondÚnew_wordÚiÚjrrQrÚbpe^sH , òå zSimpleTokenizer.bpecsng}tt|ƒƒ ¡}t ˆj|¡D]#}d ‡fdd„| d¡Dƒ¡}| ‡fdd„ˆ |¡ d¡Dƒ¡q|S)NrGc3ó|]}ˆj|VqdSr,)rS)rr#rQrrÚ ‹ó€z)SimpleTokenizer.encode..rAc3r|r,rO)rÚ bpe_tokenrQrrr}Œr~r5)r8r4Úlowerr6ÚfindallrbrÚencoder[r{rD)rRr3Ú bpe_tokensrtrrQrr‚‡s&zSimpleTokenizer.encodecsDd ‡fdd„|Dƒ¡}t‡fdd„|Dƒƒjddd dd ¡}|S) NrGcrNr)r])rrtrQrrrr@z*SimpleTokenizer.decode..crNr)rU)rÚcrQrrr‘r@rAÚreplace)ÚerrorsrFr5)rÚ bytearrayrYr…)rRÚtokensr3rrQrrYs(zSimpleTokenizer.decode) Ú__name__Ú __module__Ú__qualname__r Ústrrir{r‚rYrrrrr9Ds )r9éMÚtextsÚcontext_lengthÚreturncs–t|tƒr|g}tjd‰tjd‰‡‡fdd„|Dƒ}tjt|ƒ|tjd}t|ƒD]\}}t|ƒ|kr;|d|…}t |¡||dt|ƒ…f<q+|S)a¹ Returns the tokenized representation of given input string(s) Parameters ---------- texts : Union[str, List[str]] An input string or a list of input strings to tokenize context_length : int The context length to use; all CLIP models use 77 as the context length Returns ------- A two-dimensional tensor containing the resulting tokens, shape = [number of input strings, context_length] rHrIcs"g|] }ˆgt |¡ˆg‘qSr)Ú _tokenizerr‚)rr3©Ú eot_tokenÚ sot_tokenrrr¬s"ztokenize..)ÚdtypeN) Ú isinstancerŒr‘rPÚtorchÚzerosr\ÚlongÚ enumerateÚtensor)rŽrÚ all_tokensÚresultryrˆrr’rÚtokenize˜s rž)r)Ú__doc__rVr/rÚ functoolsrÚtypingrrr-Úregexr6r—r r$r+r4r8Úobjectr9r‘rŒÚintÚ LongTensorržrrrrÚs& Q*