o ©Ì³iÛã @sÆddlmZmZmZmZmZmZddlmZm Z m Z ddlmZddl mZddlmZdddd d ddd dddddœZdZeddƒD]ZedkrIqBeede›d<ed7ZqBdZGdd„deeƒZdS)é)ÚAnyÚDictÚListÚMappingÚOptionalÚTuple)ÚMessageÚPromptTemplateÚtruncate)ÚModelTokenizer)Ú Transform)ÚGPT2BaseTokenizeré ‡i¡‡i¢‡i£‡i¤‡i¥‡i¦‡i§‡i¨‡i©‡iª‡i´‡)z<|dummy_0|>ú <|endoftext|>z<|fim_prefix|>z<|fim_middle|>z<|fim_suffix|>z<|dummy_1|>z<|dummy_2|>z<|dummy_3|>ú<|im_start|>ú <|im_end|>ú <|im_sep|>z<|endofprompt|>éi«‡iˆz<|dummy_z|>ézs(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\r\n\p{L}\p{N}]?\p{L}+|\p{N}{1,3}| ?[^\s\p{L}\p{N}]+[\r\n]*|\s*[\r\n]+|\s+(?!\S)|\s+c@seZdZdZ d#dededeeeefdeedeef dd „Z e d d„ƒZ d$d ededede efdd„Zd%de ededefdd„Zdedefdd„Zdddœde edededee ee effdd„Zd eeefdeeeffd!d"„ZdS)&Ú Phi4TokenizeraQ TikToken tokenizer configured with Phi4 (14B) special tokens. Args: merges_path (str): Path to merges.txt file. vocab_path (str): Path to vocab.json file. special_tokens (Optional[Dict[str, int]]): Mapping containing special text tokens and their registered token IDs. If left as None, this will be set to the canonical Phi4 special tokens. max_seq_len (Optional[int]): Max sequence length to truncate tokens to. prompt_template (Optional[PromptTemplate]): Template used to format the messages based on their role. NÚmerges_pathÚ vocab_pathÚspecial_tokensÚmax_seq_lenÚprompt_templatecCsd|pt|_|jd|_|jd|_|jd|_|jg|_||_||_t|||j|j|j|jƒ|_ dS)Nrrz<|dummy_85|>) ÚPHI4_SPECIAL_TOKENSrÚeos_idÚbos_idÚpad_idÚstop_tokensrrr Útokenizer_model)Úselfrrrrr©r"úT/home/ubuntu/.local/lib/python3.10/site-packages/torchtune/models/phi4/_tokenizer.pyÚ__init__6s úzPhi4Tokenizer.__init__cCs|jjS)N)r Ú vocab_size)r!r"r"r#r%RszPhi4Tokenizer.vocab_sizeTÚtextÚadd_bosÚadd_eosÚreturncCs|jj|||dS)N)r&r'r()r Úencode)r!r&r'r(r"r"r#r*VszPhi4Tokenizer.encodeÚidsÚskip_special_tokenscs‡fdd„|Dƒ}|j |¡S)zDecode token IDs to strings.cs*g|]}ˆrd|krdksn|‘qS)riÿ‡r")Ú.0Útoken_id©r,r"r#Ú ]sýþz(Phi4Tokenizer.decode..)r Údecode)r!r+r,Úids_for_decoder"r/r#r1[s þzPhi4Tokenizer.decodeÚrolecCs6|jdg}| |j|ddd¡| |jd¡|S)NrF©r'r(r)rÚextendr*Úappend)r!r3Útokenized_messagesr"r"r#Ú_tokenize_headerdszPhi4Tokenizer._tokenize_headerF)r(Úignore_system_promptÚmessagesr9cCsl|jr| |¡n|}g}g}|D]}|r|jdkrq| |j¡}| |¡| |jgt|ƒ¡g} |jD] } | ddkrM| |j| d d¡ddd7} q5t d| d›ƒ‚|rf|jd krf| |jd ¡n |jd krs| |jd ¡| | ¡| |jgt| ƒ¡|jrt|ƒ|jkrnq|jr²t|ƒ|jkr²t ||j|r£|jndƒ}t ||j|r¯|jndƒ}||fS)NÚsystemÚtyper&Úcontentú Fr4z"Unsupported message content type: Ú assistantr)rr3r8r5ÚmaskedÚlenr=r*ÚrstripÚRuntimeErrorr6rrr r)r!r:r(r9Útemplated_messagesr7ÚmaskÚmessageÚtokenized_headerÚtokensÚitemr"r"r#Útokenize_messagesjsDÿ ÿÿ €ÿzPhi4Tokenizer.tokenize_messagesÚsamplecCs,| d¡}| |¡\}}||d<||d<|S)zR Apply `tokenize_messages` to the "messages" field in the sample. r:rHrE)ÚpoprJ)r!rKr:rHrEr"r"r#Ú__call__Ÿs zPhi4Tokenizer.__call__)NNNNN)TT)T)Ú__name__Ú __module__Ú__qualname__Ú__doc__ÚstrrrÚintr r$Úpropertyr%Úboolrr*r1Úlistr8rrrJrrrMr"r"r"r#r(sXúþýüû ú ÿÿÿÿ þ ûþüû ú&5rN)ÚtypingrrrrrrÚtorchtune.datarr r Útorchtune.modules.tokenizersrÚtorchtune.modules.transformsrÚ'torchtune.modules.transforms.tokenizersr rÚcurrent_dummy_indexÚranger.ÚCL100K_PATTERNrr"r"r"r#Ús4 ô