o ÔÙ¾i.<ã@s^dZddlmZmZmZddlZddlZddlm m Zddlm Z ddlm Z ddlmZmZmZddlmZddlmZmZmZdd lmZdd lmZddlmZddlmZdd l m!Z!m"Z"ddl#m$Z$ddl%m&Z&ddl'm(Z(Gdd„de j)ƒZ*Gdd„de j)ƒZ+Gdd„de j)ƒZ,Gdd„de j)ƒZ-Gdd„de j)ƒZ.Gdd„de j)ƒZ/e/Z0dS)zInference-only Mixtral model.é)ÚIterableÚOptionalÚTupleN)Únn)Ú MixtralConfig)Úget_tensor_model_parallel_rankÚ$get_tensor_model_parallel_world_sizeÚ tensor_model_parallel_all_reduce)ÚRMSNorm)ÚQKVParallelLinearÚReplicatedLinearÚRowParallelLinear)ÚLogitsProcessor)ÚQuantizationConfig)ÚRadixAttention)Úget_rope)ÚParallelLMHeadÚVocabParallelEmbedding)ÚForwardBatch)Údefault_weight_loader)Ú add_prefixc sVeZdZ ddedededeededdf‡fd d „ Zdej dej fdd „Z ‡ZS)Ú MixtralMLPNÚÚnum_expertsÚhidden_sizeÚintermediate_sizeÚquant_configÚprefixÚreturncs„tƒ ¡||_||_||_t|j|jd|td|ƒd|_t|j|jd|td|ƒd|_t|j|jd|td|ƒd|_ t ¡|_dS)NFÚw1©ÚbiasrrÚw2Úw3) ÚsuperÚ__init__rÚffn_dimÚ hidden_dimrrrr"r#rÚSiLUÚact_fn)Úselfrrrrr©Ú __class__©úS/home/ubuntu/.local/lib/python3.10/site-packages/sglang/srt/models/mixtral_quant.pyr%4s4 ûûû zMixtralMLP.__init__Ú hidden_statescCs@| |¡\}}| |¡}| |¡\}}||}| |¡\}}|S©N)rr)r#r")r*r/Úw1_outÚ_Úw3_outÚcurrent_hidden_statesr-r-r.ÚforwardZs zMixtralMLP.forward©Nr)Ú__name__Ú __module__Ú__qualname__ÚintrrÚstrr%ÚtorchÚTensorr5Ú __classcell__r-r-r+r.r3s"úþýüûúù&rcsJeZdZ ddedeedef‡fdd„ Zdej d ej fd d„Z ‡ZS) Ú MixtralMoENrÚconfigrrcsÖtƒ ¡ˆˆ_tƒˆ_tƒˆ_ˆjˆ_ˆj ˆ_ ˆjˆjkr+tdˆj›dˆj›dƒ‚t tˆjƒˆj¡ˆj ¡ˆ_ˆjsGtdˆj›dƒ‚t ‡‡‡‡fdd„tˆjƒDƒ¡ˆ_tˆjˆjddtd ˆƒd ˆ_dS)NzTensor parallel size z' is greater than the number of experts Ú.zRank z has no experts assigned to it.c s>g|]}|ˆjvrtˆjˆjˆjˆtd|›ˆƒdnd‘qS)zexperts.©rrN)Úexpert_indiciesrÚnum_total_expertsrrr)Ú.0Úidx©r@rrr*r-r.Ú }s ýùûöz'MixtralMoE.__init__..FÚgater )r$r%r@rÚrankrÚtp_sizeÚnum_local_expertsrDÚnum_experts_per_tokÚtop_kÚ ValueErrorÚnpÚarray_splitÚrangeÚtolistrCrÚ ModuleListÚexpertsrrrrI©r*r@rrr+rGr.r%dsB ÿÿÿþþôÿûzMixtralMoE.__init__r/rcCsª| |¡\}}tj|dtjd}tj||jdd\}}||jddd}d}|jD]'}|j |}||k} || jddd} ||ƒ | ¡}|durK|}q)| |¡q)t|ƒS)Né)ÚdimÚdtypeéÿÿÿÿ©rXT)rXÚkeepdim) rIÚFÚsoftmaxr<ÚfloatÚtopkrNÚsumrCrUÚmul_Úadd_r )r*r/Ú router_logitsr2Úrouting_weightsÚselected_expertsÚfinal_hidden_statesÚ expert_idxÚexpert_layerÚexpert_maskÚexpert_weightsr4r-r-r.r5”s ÿ zMixtralMoE.forwardr6)r7r8r9rrrr;r%r<r=r5r>r-r-r+r.r?csüþýü0r?csreZdZ ddededed ed ededeed eddf‡fdd„ Zde j de j dede j fdd„Z‡Z S)ÚMixtralAttentionréé'NrrÚ num_headsÚnum_kv_headsÚlayer_idÚmax_positionÚ rope_thetarrrc sJtƒ ¡||_tƒ} ||_|j| dksJ‚|j| |_||_|j| kr/|j| dks.J‚n | |jdks8J‚td|j| ƒ|_||j|_ |j|j |_ |j|j |_|j d|_||_ t||j |j|jd|td|ƒd|_t|j|j |d|td|ƒd|_t|j |j |t|j ƒdd |_t|j|j |j|j||td |ƒd|_dS)NrrWgà¿FÚqkv_projr Úo_projT)Ú rotary_dimrrÚbaseÚ is_neox_styleÚattn)rprqrr)r$r%rrÚtotal_num_headsroÚtotal_num_kv_headsÚmaxrpÚhead_dimÚq_sizeÚkv_sizeÚscalingrsrrrtr rurr:Ú rotary_embrry) r*rrorprqrrrsrrrKr+r-r.r%s` ù ûûùzMixtralAttention.__init__Ú positionsr/Ú forward_batchcCsb| |¡\}}|j|j|j|jgdd\}}}| |||¡\}}| ||||¡} | | ¡\} }| S)NrZr[)rtÚsplitr~rrryru)r*r‚r/rƒÚqkvr2ÚqÚkÚvÚattn_outputÚoutputr-r-r.r5ïs zMixtralAttention.forward)rrmrnNr)r7r8r9r:r_rrr;r%r<r=rr5r>r-r-r+r.rl¬sD÷þýüûúùø ÷ öBþýüûrlcsheZdZ ddededeededdf ‡fd d „ Zde j de j d edee j de j f dd„Z‡Z S)ÚMixtralDecoderLayerrNrr@rqrrrcs„tƒ ¡|j|_t|ddƒ}t|j|j|j|j|||td|ƒd|_ t ||td|ƒd|_t|j|j d|_t|j|j d|_dS)NrsrnÚ self_attn)rrorrrprqrsrrÚblock_sparse_moe)r@rr©Úeps)r$r%rÚgetattrrlÚnum_attention_headsÚmax_position_embeddingsÚnum_key_value_headsrrŒr?rr Úrms_norm_epsÚinput_layernormÚpost_attention_layernorm)r*r@rqrrrsr+r-r.r%þs, ø ýÿzMixtralDecoderLayer.__init__r‚r/rƒÚresidualcCsZ|dur|}| |¡}n| ||¡\}}|j|||d}| ||¡\}}| |¡}||fS)N)r‚r/rƒ)r•rŒr–r)r*r‚r/rƒr—r-r-r.r5sý zMixtralDecoderLayer.forward)rNr)r7r8r9rr:rrr;r%r<r=rr5r>r-r-r+r.r‹ýs4ûþýüûúþýüûúr‹csbeZdZ ddedeededdf‡fdd„ Z dd ej d ej de dej dej f d d„Z‡ZS)ÚMixtralModelNrr@rrrcsntƒ ¡ˆj|_ˆj|_tˆjˆjtdˆƒd|_t ‡‡‡fdd„tˆjƒDƒ¡|_ tˆjˆjd|_dS)NÚembed_tokens©rc s(g|]}tˆ|ˆtd|›ˆƒd‘qS)zlayers.rB)r‹r)rEÚi©r@rrr-r.rHGsúüÿz)MixtralModel.__init__..rŽ)r$r%Úpad_token_idÚpadding_idxÚ vocab_sizerrrr™rrTrRÚnum_hidden_layersÚlayersr r”ÚnormrVr+rœr.r%7s ýùÿzMixtralModel.__init__Ú input_idsr‚rƒÚinput_embedsc Cs`|dur | |¡}n|}d}tt|jƒƒD]}|j|}|||||ƒ\}}q| ||¡\}} |Sr0)r™rRÚlenr¡r¢) r*r£r‚rƒr¤r/r—r›Úlayerr2r-r-r.r5Ss ÿzMixtralModel.forwardr6r0) r7r8r9rrrr;r%r<r=rr5r>r-r-r+r.r˜6s0üþýüû!ûþýüûúr˜cs†eZdZ ddedeededdf‡fdd„ Ze ¡ dd ej d ej dedej dej f d d„ƒZde eeej ffdd„Z‡ZS)ÚQuantMixtralForCausalLMNrr@rrrcsTtƒ ¡||_||_t||td|ƒd|_t|j|j td|ƒd|_ t|ƒ|_dS)NÚmodelrBÚlm_headrš) r$r%r@rr˜rr¨rrŸrr©rÚlogits_processorrVr+r-r.r%is ÿÿz QuantMixtralForCausalLM.__init__r£r‚rƒr¤cCs"| ||||¡}| |||j|¡Sr0)r¨rªr©)r*r£r‚rƒr¤r/r-r-r.r5zs ÿzQuantMixtralForCausalLM.forwardÚweightscCsÞgd¢}t| ¡ƒ}|D]`\}}d|vrq|D]-\}}}||vr!q| ||¡}| d¡r1||vr1q||vr6q||} | j} | | ||ƒn'| d¡rO||vrOqd|vrX||vrXq||vr]q||} t| dtƒ} | | |ƒqdS)N))rtÚq_projr†)rtÚk_projr‡)rtÚv_projrˆzrotary_emb.inv_freqz.biaszblock_sparse_moe.experts.Ú weight_loader)ÚdictÚnamed_parametersÚreplaceÚendswithr¯rr)r*r«Ústacked_params_mappingÚparams_dictÚnameÚ loaded_weightÚ param_nameÚweight_nameÚshard_idÚparamr¯r-r-r.Úload_weights‡s8 €åz$QuantMixtralForCausalLM.load_weightsr6r0)r7r8r9rrrr;r%r<Úno_gradr=rr5rrr¼r>r-r-r+r.r§hs4üþýüûûþýüûú$r§)1Ú__doc__ÚtypingrrrÚnumpyrPr<Útorch.nn.functionalrÚ functionalr]ÚtransformersrÚsglang.srt.distributedrrr Úsglang.srt.layers.layernormr Úsglang.srt.layers.linearrrr Ú"sglang.srt.layers.logits_processorrÚ*sglang.srt.layers.quantization.base_configrÚ!sglang.srt.layers.radix_attentionrÚ"sglang.srt.layers.rotary_embeddingrÚ*sglang.srt.layers.vocab_parallel_embeddingrrÚ,sglang.srt.model_executor.forward_batch_inforÚ$sglang.srt.model_loader.weight_utilsrÚsglang.srt.utilsrÚModulerr?rlr‹r˜r§Ú EntryClassr-r-r-r.Ús20IQ92F