o Û¾iU<ã@s.ddlmZddlZddlmZddlmZddlmZddl m Z mZddlm Z ddlmZddlmZmZdd lmZdd lmZddlmZmZddlmZmZdd lmZmZddl m!Z!ddl"m#Z#m$Z$m%Z%m&Z&e e'ƒZ(Gdd„deƒZedddddœdGdd„dej)ƒƒZ*Gdd„deƒZ+dS)é)ÚIterableN)ÚLlamaConfig)Úsupport_torch_compile)Ú VllmConfigÚget_current_vllm_config)Úinit_logger)ÚRMSNorm)ÚQKVParallelLinearÚReplicatedLinear)ÚLogitsProcessor)ÚQuantizationConfig)ÚParallelLMHeadÚVocabParallelEmbedding)Údefault_weight_loaderÚmaybe_remap_kv_scale_name)ÚLlamaDecoderLayerÚLlamaForCausalLM)Ú NestedTensorsé)ÚAutoWeightsLoaderÚget_draft_quant_configÚmaybe_prefixÚprocess_eagle_weightcsÊeZdZ ddedededBdeddf ‡fd d „ ZdededBfdd„Z d e jdee je jffdd„Z d e jdee je jffdd„Zde jde jd e jde jdBdee je jff dd„Z‡ZS)rÚNrÚvllm_configÚprefixÚconfigÚ layer_idxÚreturnc s´tƒj|||d|p|jj}| |¡}|dkrd|jn|j}t|ddƒ}t||jj |jj |jj||t|dƒd|j_ t|j|jd|_||_t|d dƒrT|j|_dS|j|_dS) N)rrréÚattention_biasFÚqkv_proj)ÚbiasÚquant_configr©ÚepsÚnorm_before_residual)ÚsuperÚ__init__Úmodel_configÚ hf_configÚget_quant_configÚhidden_sizeÚgetattrr Ú self_attnÚhead_dimÚtotal_num_headsÚtotal_num_kv_headsrr!rÚrms_norm_epsÚhidden_normrÚ_norm_before_residualÚ_residual_normÚ_norm_after_residual)Úselfrrrrr#Úqkv_input_sizeÚqkv_bias©Ú __class__©ú[/home/ubuntu/.local/lib/python3.10/site-packages/vllm/model_executor/models/llama_eagle3.pyr('s& ù zLlamaDecoderLayer.__init__cCst|ƒS)z8Use drafter's quantization config instead of verifier's.)r)r7rr<r<r=r+Msz"LlamaDecoderLayer.get_quant_configÚ hidden_statescCs| |¡}|}||fS©N©r3©r7r>Úresidualr<r<r=r4Qs z'LlamaDecoderLayer._norm_before_residualcCs|}| |¡}||fSr?r@rAr<r<r=r6Xs z&LlamaDecoderLayer._norm_after_residualÚ positionsÚembedsrBcCsx|jdkr| |¡}|j|d\}}tj||gdd}n| ||¡\}}|j||d}| ||¡\}}| |¡}||fS)Nr)r>éÿÿÿÿ)Údim)rCr>)rÚinput_layernormr5ÚtorchÚcatr.Úpost_attention_layernormÚmlp)r7rCrDr>rBr<r<r=Úforward_s þ zLlamaDecoderLayer.forward)rNr)Ú__name__Ú __module__Ú__qualname__rÚstrrÚintr(rr+rHÚTensorÚtupler4r6rLÚ __classcell__r<r<r:r=r&sJûþýüûú&ÿ þÿ þþýüûúrrE)Ú input_idsrCr>Úinput_embeds)Údynamic_arg_dimsc sªeZdZdddœdedededdf‡fd d „Zdejdejfdd „Z ddejdejdejdejdBde ejejff dd„Zdee eejfde efdd„Z‡ZS)Ú LlamaModelrr)Ústart_layer_idrrrYrrNc stƒ ¡|jjjˆ_ˆjjˆ_t|ƒˆ_t ˆjddƒ}|dur*d|vr*|dˆ_ ndˆ_ tƒ‰tˆjjˆjj tˆdƒdˆ_t ‡‡‡‡fdd„tˆjjƒDƒ¡ˆ_ˆj r}tˆjdƒrcˆjjd }nˆjj d }t|ˆjj d |jjˆjtˆdƒd dˆ_tˆjj ˆjjd ˆ_dS)NÚeagle_configÚuse_aux_hidden_stateTÚembed_tokens©rc s.g|]}tˆtˆd|ˆ›ƒˆj|d‘qS)zlayers.)rrr)rrr)Ú.0r©Úcurrent_vllm_configrr7rYr<r=Ú £súüÿz'LlamaModel.__init__..Útarget_hidden_sizeéFÚfc)Ú input_sizeÚoutput_sizer"Úparams_dtyper#rÚreturn_biasr$)r'r(Úspeculative_configÚdraft_model_configr*rÚ vocab_sizerr#r-r[rrr,rr\ÚnnÚ ModuleListÚrangeÚnum_hidden_layersÚlayersÚhasattrrbr r)Údtyperdrr2Únorm)r7rrYrrZÚ fc_input_sizer:r_r=r(†sH ý ùÿù þzLlamaModel.__init__rUcCs | |¡Sr?)r\)r7rUr<r<r=Úembed_input_idsÀs zLlamaModel.embed_input_idsrCr>rVcCsf|dur | |¡}|jd|jdksJ‚d}|jD]}|||||d\}}q| ||¡\}}||fS)NrE)rCrDr>rB)ruÚshaperprs)r7rUrCr>rVrBÚlayerÚhidden_prenormr<r<r=rLÃs üzLlamaModel.forwardÚweightsc Cs*gd¢}t| ¡ƒ}tƒ}|D]ƒ\}}d|vr| dd¡}|jdurK|j |¡}rK||}t|dtƒ} | ¡dkr<|n|d}| ||ƒ| |¡qd|vsSd|vr]t ||ƒ}|dur]q|D]\} }}||vriq_| || ¡}||}|j} | |||ƒn||}t|dtƒ} | ||ƒ| |¡q|S)N))ú .qkv_projz.q_projÚq)rzz.k_projÚk)rzz.v_projÚv)ú .gate_up_projz .gate_projr)r~z.up_projrz midlayer.z layers.0.Ú weight_loaderrÚscaleÚ zero_point)ÚdictÚnamed_parametersÚsetÚreplacer#Úget_cache_scaler-rrFÚaddrr) r7ryÚstacked_params_mappingÚparams_dictÚ loaded_paramsÚnameÚ loaded_weightÚ scale_nameÚparamrÚ param_nameÚweight_nameÚshard_idr<r<r=Úload_weightsÙsB ÿÿ zLlamaModel.load_weightsr?)rMrNrOrrQrPr(rHrRrurSrLrr„r’rTr<r<r:r=rX}s4 ûýüûú:ûþýüû ú,rXc @sØeZdZddœdedefdd„Z ddejd edBd ejdBdejfdd „Z ddejdejdejdejdBde ejejff dd„ZdejdejdBfdd„Zdejdejfdd„Z dee eejffdd„ZdS)ÚEagle3LlamaForCausalLMrr]rrcCstj |¡|jjj|_t|jddƒdur t|jddƒ}||j_|j |j¡}||j_t |d|d|_t|jddƒ}t|jj|jjt|dƒd|_t|jj|d |_tjtj|jjtjd dd|_|jj|_|jr‚|jd t d|jjrvdnd|jj¡dddSdS)NÚdraft_vocab_sizerkÚmodel)rrrYÚlogit_scalegð?Úlm_headr])r€)rrF)Ú requires_gradÚmask_hiddenrrc)Ú persistent)rlÚModuler(rirjr*rr-r”r)Úget_num_layersÚparallel_configÚtarget_layer_countrXr•r r,rr—rÚlogits_processorÚ ParameterrHÚzerosÚlongÚdraft_id_to_target_idÚparallel_draftingÚuse_parallel_draftingÚregister_bufferr[)r7rrÚbase_vocab_sizeÚtarget_layer_numr–r<r<r=r( sLÿÿýÿþ ÿþ ùÿzEagle3LlamaForCausalLM.__init__NrUÚmultimodal_embeddingsÚ is_multimodalrcCs|j |¡Sr?)r•ru)r7rUr©rªr<r<r=ru8sz&Eagle3LlamaForCausalLM.embed_input_idsrCr>Ú inputs_embedscCs| ||||¡Sr?)r•)r7rUrCr>r«r<r<r=rL@szEagle3LlamaForCausalLM.forwardcCs˜| |j|¡}|jdur$|jd|jjks"Jd|jj›d|j›ƒ‚|Stj|jj|j d}||j}| |jd|jjftdƒ¡}||dd…|f<|S)Nrz"Expected logits to have shape (*, z), but got )Údevicerz-inf)rŸr—r£rvrrkrHÚaranger”r¬Únew_fullÚfloat)r7r>ÚlogitsÚbaseÚtargetsÚ logits_newr<r<r=Úcompute_logitsIs( ÿÿÿ þûz%Eagle3LlamaForCausalLM.compute_logitscCs|jjs|S|j |¡Sr?)r•r[rd)r7r>r<r<r=Úcombine_hidden_statesasz,Eagle3LlamaForCausalLM.combine_hidden_statesryc Cs i}d}d}d}|D]G\}}d|vrq d|vr | dd¡}d}n"d|vr:|js-t d¡q |j | dd ¡¡d}q d |vrBd|}d|vrHd}|||<t||ƒq |s[|jr[td ƒ‚dg}|se| d¡|sl| d¡|j jsu| d¡t|d|d} | | ¡¡dS)NFÚt2dÚd2tr£Tr™zmmask_hidden found in weights but model is not configured for parallel drafting. Skipping loading mask_hidden.rrEr—zmodel.r\zzmask_hidden not found in weights but model is configured for parallel drafting. Please provide mask_hidden in the weights.zfc.)Ú skip_prefixesÚskip_substrs)r…r¥ÚloggerÚwarningr™Úcopy_ÚviewrÚ ValueErrorÚappendr•r[rr’Úitems) r7ryÚ model_weightsÚincludes_draft_id_mappingÚincludes_embed_tokensÚincludes_mask_hiddenr‹rŒr¹Úloaderr<r<r=r’jsTÿ ÿ ýz#Eagle3LlamaForCausalLM.load_weights)NNr?)rMrNrOrrPr(rHrRrrurSrLr´rµrr’r<r<r<r=r“ sH1üþýü û ûþýüû ú þ ýþ ý r“),Úcollections.abcrrHÚtorch.nnrlÚtransformersrÚvllm.compilation.decoratorsrÚvllm.configrrÚvllm.loggerrÚ$vllm.model_executor.layers.layernormrÚ!vllm.model_executor.layers.linearr r Ú+vllm.model_executor.layers.logits_processorrÚ3vllm.model_executor.layers.quantization.base_configrÚ3vllm.model_executor.layers.vocab_parallel_embeddingr rÚ-vllm.model_executor.model_loader.weight_utilsrrÚ vllm.model_executor.models.llamarrÚvllm.multimodal.inputsrÚutilsrrrrrMrºr›rXr“r<r<r<r=Ús8Wüÿ