o -ºiáã@sŒUddlZddlZddlmZddlmZddlmZmZm Z ddl mZddlm Z ee BZeed<d ed efdd„ZGd d„de ƒZdS)éN)ÚPath)Ú TypeAlias)Ú AutoTokenizerÚPreTrainedTokenizerÚPreTrainedTokenizerFast)Ú)get_sentence_transformer_tokenizer_configé)Ú TokenizerLikeÚHfTokenizerÚ tokenizerÚreturncs¬t ˆ¡}ˆj‰ˆj‰ˆ ¡‰tˆƒ‰tˆ ¡ƒ‰tˆdƒr9t t ¡tˆˆjƒ‰Wdƒn1s4wYG‡‡‡‡‡‡fdd„dˆjƒ}dˆjj ›|_ ||_|S)zË By default, transformers will recompute multiple tokenizer properties each time they are called, leading to a significant slowdown. This proxy caches these properties for faster access. Ú vocab_sizeNcsŽeZdZedeef‡fdd„ƒZedeef‡fdd„ƒZedef‡fdd„ƒZ de eeff‡fdd „Zdef‡fd d„Z‡fdd „Z dS)z-get_cached_tokenizer..CachedTokenizerrcóˆS©N©©Úself)Útokenizer_all_special_idsrúO/home/ubuntu/veenaModal/venv/lib/python3.10/site-packages/vllm/tokenizers/hf.pyÚall_special_ids(óz=get_cached_tokenizer..CachedTokenizer.all_special_idscrrrr)Útokenizer_all_special_tokensrrÚall_special_tokens,rz@get_cached_tokenizer..CachedTokenizer.all_special_tokenscrrrr)Úmax_token_idrrr0rz:get_cached_tokenizer..CachedTokenizer.max_token_idcrrrr)Útokenizer_vocabrrÚ get_vocab4óz7get_cached_tokenizer..CachedTokenizer.get_vocabcrrrr)Ú tokenizer_lenrrÚ__len__7rz5get_cached_tokenizer..CachedTokenizer.__len__cs tˆffSr)Úget_cached_tokenizerr)rrrÚ __reduce__:s z8get_cached_tokenizer..CachedTokenizer.__reduce__N)Ú__name__Ú __module__Ú__qualname__ÚpropertyÚlistÚintrÚstrrrÚdictrrr r©rrrrrrrrÚCachedTokenizer'sr*ÚCached)ÚcopyrrrÚlenÚmaxÚvaluesÚhasattrÚ contextlibÚsuppressÚNotImplementedErrorr Ú __class__r!)rÚcached_tokenizerr*rr)rrs ÿ rc@sDeZdZeddddœdeeBdededBdedBdef d d „ƒZdS)ÚCachedHfTokenizerFN)Útrust_remote_codeÚrevisionÚdownload_dirÚpath_or_repo_idr7r8r9rc Os²ztj|g|¢R|||dœ|¤Ž}Wn#ty5}z|s/dt|ƒvs(dt|ƒvr/d} t| ƒ|‚|‚d}~wwt||ƒ} t| tƒrU| dd¡rUdd„|j ¡Dƒ}| |¡t|ƒS) N)r7r8Ú cache_dirz,does not exist or is not currently imported.z*requires you to execute the tokenizer filezäFailed to load the tokenizer. If the tokenizer is a custom tokenizer not yet available in the HuggingFace transformers library, consider setting `trust_remote_code=True` in LLM or using the `--trust-remote-code` flag in the CLI.Ú do_lower_caseFcSsi|] \}}|| ¡“qSr)Úlower)Ú.0ÚkÚvrrrÚ rsÿz5CachedHfTokenizer.from_pretrained..) rÚfrom_pretrainedÚ ValueErrorr'ÚRuntimeErrorrÚ isinstancer(ÚgetÚspecial_tokens_mapÚitemsÚadd_special_tokensr)Úclsr:r7r8r9ÚargsÚkwargsrÚeÚerr_msgÚencoder_configrGrrrrBDsB ÿþû úÿ €ïÿÿÿ z!CachedHfTokenizer.from_pretrained) r!r"r#Úclassmethodr'rÚboolr rBrrrrr6Cs úþüûúør6)r1r,ÚpathlibrÚtypingrÚtransformersrrrÚvllm.transformers_utils.configrÚprotocolr r Ú__annotations__rr6rrrrÚs 2