o Û¾i<+ã@sâdZddlmZddlZddlmZddlmZddlm Z m Z mZddlm Z ddlmZddlmZdd lmZmZdd lmZddlmZddlmZd dlmZGdd„dejƒZGdd„dejƒZGdd„dejƒZ dS)zInference-only MiMo-MTP model.é)ÚIterableN)ÚPretrainedConfig)ÚCacheConfigÚModelConfigÚ VllmConfig)ÚRMSNorm)ÚLogitsProcessor)ÚQuantizationConfig)ÚParallelLMHeadÚVocabParallelEmbedding)Údefault_weight_loader)ÚQwen2DecoderLayer)ÚIntermediateTensorsé)Úmaybe_prefixc sneZdZ ddededededBdedBddf‡fdd „ Z dde j de j d e j dede j f dd„Z‡Z S)ÚMiMoMultiTokenPredictorLayerNÚconfigÚprefixÚmodel_configÚcache_configÚquant_configÚreturncsptƒ ¡t|j|jd|_t|j|jd|_tj|jd|jdd|_ t ||||d|_t|j|jd|_dS)N)ÚepséF)Úbias)rrrr) ÚsuperÚ__init__rÚhidden_sizeÚrms_norm_epsÚtoken_layernormÚhidden_layernormÚnnÚLinearÚ input_projr Ú mtp_blockÚfinal_layernorm)Úselfrrrrr©Ú __class__©úW/home/ubuntu/.local/lib/python3.10/site-packages/vllm/model_executor/models/mimo_mtp.pyr-s ÿüz%MiMoMultiTokenPredictorLayer.__init__rÚ inputs_embedsÚ positionsÚprevious_hidden_statesÚspec_step_indexcCsj|dusJ‚d||dk<| |¡}| |¡}| tj||gdd¡}|j||dd\}}||}| |¡S)Nréÿÿÿÿ)Údim)r,Ú hidden_statesÚresidual)rr r#ÚtorchÚcatr$r%)r&r+r,r-r.r1r2r)r)r*ÚforwardDs ÿ ÿ z$MiMoMultiTokenPredictorLayer.forward)NN©r)Ú__name__Ú __module__Ú__qualname__rÚstrrrr rr3ÚTensorÚintr5Ú __classcell__r)r)r'r*r,s8úþýüûúùûþýüûúrc sšeZdZddœdedef‡fdd„Zdejdejfd d „Z ddejd ejdejdejdBde dejfdd„Z ddejdede dejfdd„Z‡Z S)ÚMiMoMultiTokenPredictorÚ©rÚvllm_configrcsrtƒ ¡ˆjj‰ˆj|_ˆj|_tˆj ˆj ƒ|_tj ‡‡‡fdd„t|j|j|jƒDƒ¡|_tˆj ƒ|_dS)Nc s4i|]}t|ƒtˆˆ›d|›ˆjˆjˆjd“qS)z.layers.)rrr)r:rrrr)Ú.0Úidx©rrrAr)r*Ú jsùûÿz4MiMoMultiTokenPredictor.__init__..)rrrÚ hf_configÚnum_hidden_layersÚmtp_start_layer_idxÚnum_nextn_predict_layersÚnum_mtp_layersrÚ vocab_sizerÚembed_tokensr3r!Ú ModuleDictÚrangeÚ mtp_layersrÚlogits_processor©r&rArr'rDr*r]s" þ þøÿz MiMoMultiTokenPredictor.__init__Ú input_idsrcCs | |¡S©N)rL©r&rRr)r)r*Úembed_input_ids{s z'MiMoMultiTokenPredictor.embed_input_idsNrr,r-r+Ú spec_step_idxcCs0|dur | |¡}|jt|j|ƒ||||ƒSrS)rLrOr:rH)r&rRr,r-r+rVr)r)r*r5~s üzMiMoMultiTokenPredictor.forwardr1Úlm_headcCs$|jt|j|ƒ| ||¡}|SrS)rOr:rHrP)r&r1rWrVÚlogitsr)r)r*Úcompute_logitssz&MiMoMultiTokenPredictor.compute_logits)Nrr6)r7r8r9rr:rr3r;rUr<r5r rYr=r)r)r'r*r>\s8úþýüûú ùüþýüûr>csôeZdZddœdedef‡fdd„Zdejdejfd d „Z ddejdBd ejdejde dBdejdBde dejfdd„Z d dejde dejdBfdd„Zde eeejfdeefdd„Zdedefdd„Zde dedefdd„Z‡ZS)!ÚMiMoMTPr?r@rArcsJtƒ ¡|jj|_t|t|dƒd|_t|jj |jj t|dƒd|_dS)NÚmodel)rArrWr@)rrrrFrr>rr[r rKrrWrQr'r)r*r›s ÿýzMiMoMTP.__init__rRrcCs|j |¡SrS)r[rUrTr)r)r*rU§szMiMoMTP.embed_input_idsNrr,r1Úintermediate_tensorsr+rVcCs&|dksJdƒ‚| |||||¡}|S)Nrz+mimo_mtp only support predict one token now)r[)r&rRr,r1r\r+rVr)r)r*r5ªs ÿzMiMoMTP.forwardcCs|j ||j|¡SrS)r[rYrW)r&r1rVr)r)r*rY¹szMiMoMTP.compute_logitsÚweightscCs gd¢}t| ¡ƒ}tƒ}|D]s\}}d|vrq| |¡}|D]7\}}} ||vr)qd|vr/nNd|vr8||vr8q| ||¡}| d¡rH||vrHq||} | j}|| || ƒn&| d¡ra||vraqd|vrnd|vrnd|vrnq||} t| dtƒ}|| |ƒ| |¡q|S) N))Úqkv_projÚq_projÚq)r^Úk_projÚk)r^Úv_projÚv)Úgate_up_projÚ gate_projr)reÚup_projrzrotary_emb.inv_freqrOzmlp.experts.z.biasrLrWÚ weight_loader) ÚdictÚnamed_parametersÚsetÚ map_model_name_to_mtp_param_nameÚreplaceÚendswithrhÚgetattrrÚadd)r&r]Ústacked_params_mappingÚparams_dictÚ loaded_paramsÚnameÚ loaded_weightÚ param_nameÚweight_nameÚshard_idÚparamrhr)r)r*Úload_weightsÀs> zMiMoMTP.load_weightsrtc Cs¨ddl}d}| ||¡}|r+t| d¡ƒ}||jj}| | ¡| d¡›|›d¡}gd¢}|D] }||vr;|Sq1d}| ||¡}|rR| | ¡| ¡d¡}|S) Nrz(model\.mtp_layers\.)(\d+)(\.)rrÚ.)rr r#r%z(model\.mtp_layers\.\d+\.)z mtp_block.)ÚregexÚmatchr<ÚgrouprrGrm) r&rtÚreÚpatternr}Úoriginal_numÚnew_numÚname_without_prefixÚsub_namer)r)r*rlõs" ÿz(MiMoMTP.map_model_name_to_mtp_param_nameÚ spec_layercCsJgd¢}d}|D] }||vrd}nq|s#| d|›dd|›d¡}|S)z¡ Rewrite the weight name to match the format of the original model. Add .mtp_block for modules in transformer layer block for spec layer )rLÚenormÚhnormÚeh_projÚshared_headFTz model.layers.r{z.mtp_block.)rm)r&r…rtÚspec_layer_weight_namesÚspec_layer_weightrwr)r)r*Ú_rewrite_spec_layer_namesþÿz MiMoMTP._rewrite_spec_layer_name)NNrr6)r7r8r9rr:rr3r;rUrr<r5rYrÚtuplerkrzrlrŒr=r)r)r'r*rZšs@ùþýüûúù øýþý ü$5rZ)!Ú__doc__Úcollections.abcrr3Útorch.nnr!ÚtransformersrÚvllm.configrrrÚ$vllm.model_executor.layers.layernormrÚ+vllm.model_executor.layers.logits_processorrÚ'vllm.model_executor.layers.quantizationr Ú3vllm.model_executor.layers.vocab_parallel_embeddingr rÚ-vllm.model_executor.model_loader.weight_utilsrÚ vllm.model_executor.models.qwen2r Ú vllm.sequencerÚutilsrÚModulerr>rZr)r)r)r*Ús"0>