o ˜à·iã@sŒUddlZddlZddlmZddlmZddlmZmZm Z ddl mZddlm Z ee BZeed<d ed efdd„ZGd d„de ƒZdS)éN)ÚPath)Ú TypeAlias)Ú AutoTokenizerÚPreTrainedTokenizerÚPreTrainedTokenizerFast)Ú)get_sentence_transformer_tokenizer_configé)Ú TokenizerLikeÚHfTokenizerÚ tokenizerÚreturncsÀt ˆ¡}ˆj‰ˆj‰ˆ ¡‰tˆƒ‰tˆ ¡ƒ‰tdd„ˆDƒƒ‰tˆdƒrBt t ¡tˆˆjƒ‰Wdƒn1s=wYG‡‡‡‡‡‡‡fdd„dˆjƒ}dˆjj ›|_ ||_|S)zË By default, transformers will recompute multiple tokenizer properties each time they are called, leading to a significant slowdown. This proxy caches these properties for faster access. css|]}t|ƒVqdS©N)Úlen)Ú.0Útok©rúH/home/ubuntu/vllm_env/lib/python3.10/site-packages/vllm/tokenizers/hf.pyÚ s€z'get_cached_tokenizer..Ú vocab_sizeNcs¤eZdZedeef‡fdd„ƒZedeef‡fdd„ƒZedef‡fdd„ƒZ edef‡fdd „ƒZ deeeff‡fd d„Zdef‡fdd „Z ‡fdd„ZdS)z-get_cached_tokenizer..CachedTokenizerrcóˆSr r©Úself)Útokenizer_all_special_idsrrÚall_special_ids*óz=get_cached_tokenizer..CachedTokenizer.all_special_idscrr rr)Útokenizer_all_special_tokensrrÚall_special_tokens.rz@get_cached_tokenizer..CachedTokenizer.all_special_tokenscrr rr)Úmax_token_idrrr2rz:get_cached_tokenizer..CachedTokenizer.max_token_idcrr rr)Úmax_chars_per_tokenrrr6rzAget_cached_tokenizer..CachedTokenizer.max_chars_per_tokencrr rr)Útokenizer_vocabrrÚ get_vocab:óz7get_cached_tokenizer..CachedTokenizer.get_vocabcrr rr)Ú tokenizer_lenrrÚ__len__=r!z5get_cached_tokenizer..CachedTokenizer.__len__cs tˆffSr )Úget_cached_tokenizerr)rrrÚ __reduce__@s z8get_cached_tokenizer..CachedTokenizer.__reduce__N)Ú__name__Ú __module__Ú__qualname__ÚpropertyÚlistÚintrÚstrrrrÚdictr r#r%r©rrrrrr"rrrÚCachedTokenizer)sr/ÚCached)Úcopyrrr rÚmaxÚvaluesÚhasattrÚ contextlibÚsuppressÚNotImplementedErrorrÚ __class__r&)rÚcached_tokenizerr/rr.rr$s ÿ"r$c@sDeZdZeddddœdeeBdededBdedBdef d d „ƒZdS)ÚCachedHfTokenizerFN)Útrust_remote_codeÚrevisionÚdownload_dirÚpath_or_repo_idr;r<r=rc Os²ztj|g|¢R|||dœ|¤Ž}Wn#ty5}z|s/dt|ƒvs(dt|ƒvr/d} t| ƒ|‚|‚d}~wwt||ƒ} t| tƒrU| dd¡rUdd„|j ¡Dƒ}| |¡t|ƒS) N)r;r<Ú cache_dirz,does not exist or is not currently imported.z*requires you to execute the tokenizer filezäFailed to load the tokenizer. If the tokenizer is a custom tokenizer not yet available in the HuggingFace transformers library, consider setting `trust_remote_code=True` in LLM or using the `--trust-remote-code` flag in the CLI.Ú do_lower_caseFcSsi|] \}}|| ¡“qSr)Úlower)rÚkÚvrrrÚ xsÿz5CachedHfTokenizer.from_pretrained..) rÚfrom_pretrainedÚ ValueErrorr,ÚRuntimeErrorrÚ isinstancer-ÚgetÚspecial_tokens_mapÚitemsÚadd_special_tokensr$)Úclsr>r;r<r=ÚargsÚkwargsrÚeÚerr_msgÚencoder_configrJrrrrEJsB ÿþû úÿ €ïÿÿÿ z!CachedHfTokenizer.from_pretrained) r&r'r(Úclassmethodr,rÚboolr rErrrrr:Is úþüûúør:)r5r1ÚpathlibrÚtypingrÚtransformersrrrÚvllm.transformers_utils.configrÚprotocolr r Ú__annotations__r$r:rrrrÚs 8