o
    
Û¾iÌ<  ã                   @   sÊ  d Z ddlmZ ddlmZ ddlmZ ddlmZ ddl	Z	ddl	m
Z
 ddlmZ dd	lmZ dd
lmZmZ ddlmZmZ ddlmZ ddlmZ ddlmZ ddlmZ ddlmZmZm Z  ddl!m"Z" ddl#m$Z$ ddl%m&Z& ddl'm(Z( ddl)m*Z* ddl+m,Z, ddl-m.Z.m/Z/ ddl0m1Z1m2Z2m3Z3m4Z4m5Z5 ee6ƒZ7ede8dB de8dB de
j9fdd„ƒZ:G dd „ d e
j9ƒZ;G d!d"„ d"e
j9ƒZ<G d#d$„ d$e
j9ƒZ=eG d%d&„ d&e
j9ƒƒZ>G d'd(„ d(e
j9e.e/ƒZ?dS ))z?Inference-only Gemma model compatible with HuggingFace weights.é    )ÚIterable)Úcache)Úislice)ÚAnyN)Únn)ÚGemmaConfig)Úsupport_torch_compile)ÚCacheConfigÚ
VllmConfig)Úget_pp_groupÚ$get_tensor_model_parallel_world_size)Úinit_logger)Ú
GeluAndMul)Ú	Attention)ÚGemmaRMSNorm)ÚMergedColumnParallelLinearÚQKVParallelLinearÚRowParallelLinear)ÚLogitsProcessor)ÚQuantizationConfig)Úget_rope)ÚVocabParallelEmbedding)Údefault_weight_loader)ÚIntermediateTensorsé   )ÚSupportsLoRAÚ
SupportsPP)ÚAutoWeightsLoaderÚis_pp_missing_parameterÚ'make_empty_intermediate_tensors_factoryÚmake_layersÚmaybe_prefixÚ
hidden_actÚhidden_activationÚreturnc                 C   s\   |d u r| d urt  d| | ¡ tddS |dkrtddS |dkr&tddS td| › dƒ‚)	Na~  Gemma's activation function was incorrectly set to exact GeLU in the config JSON file when it was initially released. Changing the activation function to approximate GeLU (`gelu_pytorch_tanh`). If you want to use the legacy `%s`, edit the config JSON to set `hidden_activation=%s` instead of `hidden_act`. See https://github.com/huggingface/transformers/pull/29402 for more details.Útanh)ÚapproximateÚgelu_pytorch_tanhÚgeluÚnonezActivation function z# is not supported for Gemma models.)ÚloggerÚwarningr   Ú
ValueError)r"   r#   © r-   úT/home/ubuntu/.local/lib/python3.10/site-packages/vllm/model_executor/models/gemma.pyÚ_get_gemma_act_fn<   s   ö



ÿr/   c                       sX   e Zd Z				ddedededB dedB dedB ded	df‡ fd
d„Zdd„ Z‡  ZS )ÚGemmaMLPNÚ Úhidden_sizeÚintermediate_sizer"   r#   Úquant_configÚprefixr$   c                    sT   t ƒ  ¡  t||gd d||› dd| _t||d||› dd| _t||ƒ| _d S )Né   Fz.gate_up_proj©Úbiasr4   r5   z
.down_proj)ÚsuperÚ__init__r   Úgate_up_projr   Ú	down_projr/   Úact_fn)Úselfr2   r3   r"   r#   r4   r5   ©Ú	__class__r-   r.   r:   [   s    
	ûûzGemmaMLP.__init__c                 C   s*   |   |¡\}}|  |¡}|  |¡\}}|S ©N)r;   r=   r<   )r>   ÚxÚgate_upÚ_r-   r-   r.   Úforwardu   s   
zGemmaMLP.forward)NNNr1   )	Ú__name__Ú
__module__Ú__qualname__ÚintÚstrr   r:   rE   Ú__classcell__r-   r-   r?   r.   r0   Z   s*    ùþýüûúùør0   c                       s|   e Zd Z				ddededededeeef d	ed
edB dedB deddf‡ fdd„Z	de
jde
jde
jfdd„Z‡  ZS )ÚGemmaAttentioné    Nr1   r2   Ú	num_headsÚnum_kv_headsÚhead_dimÚrope_parametersÚmax_position_embeddingsÚcache_configr4   r5   r$   c
              	      s4  t ƒ  ¡  || _tƒ }
|| _| j|
 dksJ ‚| j|
 | _|| _| j|
kr/| j|
 dks.J ‚n	|
| j dks8J ‚td| j|
 ƒ| _|| _	| j| j	 | _
| j| j	 | _| j	d | _t|| j	| j| jd||	› dd| _t| j| j	 |d||	› dd| _t| j	||dd	| _t| j| j	| j| j|||	› d
d| _d S )Nr   r   g      à¿Fz	.qkv_projr7   z.o_projT)Úmax_positionrQ   Úis_neox_stylez.attn)rO   rS   r4   r5   )r9   r:   r2   r   Útotal_num_headsrN   Útotal_num_kv_headsÚmaxrO   rP   Úq_sizeÚkv_sizeÚscalingr   Úqkv_projr   Úo_projr   Ú
rotary_embr   Úattn)r>   r2   rN   rO   rP   rQ   rR   rS   r4   r5   Útp_sizer?   r-   r.   r:   }   s\   

ù	
ûüùzGemmaAttention.__init__Ú	positionsÚhidden_statesc           
      C   s`   |   |¡\}}|j| j| j| jgdd\}}}|  |||¡\}}|  |||¡}|  |¡\}	}|	S )Néÿÿÿÿ)Údim)r\   ÚsplitrY   rZ   r^   r_   r]   )
r>   ra   rb   ÚqkvrD   ÚqÚkÚvÚattn_outputÚoutputr-   r-   r.   rE   ¿   s    zGemmaAttention.forward)rM   NNr1   )rF   rG   rH   rI   ÚdictrJ   r   r	   r   r:   ÚtorchÚTensorrE   rK   r-   r-   r?   r.   rL   |   sB    öþýüû
úùø	÷
öõBþýürL   c                       sr   e Zd Z			ddededB dedB deddf
‡ fdd	„Zd
ej	dej	dej	dB de
ej	ej	f fdd„Z‡  ZS )ÚGemmaDecoderLayerNr1   ÚconfigrS   r4   r5   r$   c                    s’   t ƒ  ¡  |j| _t| j|j|j|j|j|j|||› dd	| _	t
| j|j|jt|dd ƒ||› dd| _t|j|jd| _t|j|jd| _d S )Nz
.self_attn)	r2   rN   rO   rP   rR   rQ   rS   r4   r5   r#   z.mlp)r2   r3   r"   r#   r4   r5   ©Úeps)r9   r:   r2   rL   Únum_attention_headsÚnum_key_value_headsrP   rR   rQ   Ú	self_attnr0   r3   r"   ÚgetattrÚmlpr   Úrms_norm_epsÚinput_layernormÚpost_attention_layernorm)r>   rp   rS   r4   r5   r?   r-   r.   r:   Í   s2   
÷
úÿzGemmaDecoderLayer.__init__ra   rb   Úresidualc                 C   sX   |d u r|}|   |¡}n|   ||¡\}}| j||d}|  ||¡\}}|  |¡}||fS )N)ra   rb   )ry   ru   rz   rw   )r>   ra   rb   r{   r-   r-   r.   rE   î   s   þ
zGemmaDecoderLayer.forward)NNr1   )rF   rG   rH   r   r	   r   rJ   r:   rm   rn   ÚtuplerE   rK   r-   r-   r?   r.   ro   Ì   s0    ûþýüûú!þýüûro   c                       s    e Zd Zddœdedef‡ fdd„Zdejdejfd	d
„Z	ddejdB dejde	dB dejdB deje	B f
dd„Z
deeeejf  dee fdd„Z‡  ZS )Ú
GemmaModelr1   ©r5   Úvllm_configr5   c                   s¬   t ƒ  ¡  |jj‰|j‰ |j‰ˆ| _tˆjˆj	ƒ| _
tˆj‡ ‡‡fdd„|› dd\| _| _| _tˆj	ˆjd| _| jj	d }| jdt |¡dd	 td
dgˆj	ƒ| _d S )Nc                    s   t ˆˆ ˆ| dS )Nr~   )ro   r~   ©rS   rp   r4   r-   r.   Ú<lambda>  s    ÿz%GemmaModel.__init__.<locals>.<lambda>z.layersr~   rq   g      à?Ú
normalizerF)Ú
persistentrb   r{   )r9   r:   Úmodel_configÚ	hf_configrS   r4   rp   r   Ú
vocab_sizer2   Úembed_tokensr    Únum_hidden_layersÚstart_layerÚ	end_layerÚlayersr   rx   ÚnormÚregister_bufferrm   Útensorr   Úmake_empty_intermediate_tensors)r>   r   r5   r‚   r?   r€   r.   r:     s(   
þû

ÿzGemmaModel.__init__Ú	input_idsr$   c                 C   s
   |   |¡S rA   )r‡   ©r>   r   r-   r-   r.   Úembed_input_ids'  s   
zGemmaModel.embed_input_idsNra   Úintermediate_tensorsÚinputs_embedsc           	      C   s’   t ƒ jr|d ur|}n|  |¡}|| j9 }d }n|d }|d }t| j| j| jƒD ]
}||||ƒ\}}q)t ƒ js?t	||dœƒS |  
||¡\}}|S )Nrb   r{   )rb   r{   )r   Úis_first_rankr’   r‚   r   r‹   r‰   rŠ   Úis_last_rankr   rŒ   )	r>   r   ra   r“   r”   rb   r{   ÚlayerrD   r-   r-   r.   rE   *  s(   


ýÿzGemmaModel.forwardÚweightsc                 C   sÖ   g d¢}t |  ¡ ƒ}tƒ }|D ]Y\}}|D ].\}}}	||vrq| ||¡}| d¡r/||vr/qt|| ƒr5q|| }
|
j}||
||	ƒ  n| d¡rN||vrNqt|| ƒrTq|| }
t|
dtƒ}||
|ƒ | 	|¡ q|S )N))r\   Úq_projrg   )r\   Úk_projrh   )r\   Úv_projri   )r;   Ú	gate_projr   )r;   Úup_projr   z.biasÚweight_loader)
rl   Únamed_parametersÚsetÚreplaceÚendswithr   rž   rv   r   Úadd)r>   r˜   Ústacked_params_mappingÚparams_dictÚloaded_paramsÚnameÚloaded_weightÚ
param_nameÚ
shard_nameÚshard_idÚparamrž   r-   r-   r.   Úload_weightsH  s2   


zGemmaModel.load_weightsrA   )rF   rG   rH   r
   rJ   r:   rm   rn   r’   r   rE   r   r|   r    r­   rK   r-   r-   r?   r.   r}     s      ûþýüû
ú,r}   c                       sÎ   e Zd Zg d¢ddgdœZddœdedef‡ fd	d
„Zdejdejfdd„Z			ddejdB dejde
dB dejdB deje
B f
dd„ZdejdejdB fdd„Zdeeeejf  dee fdd„Z‡  ZS )ÚGemmaForCausalLM)r™   rš   r›   rœ   r   )r\   r;   r1   r~   r   r5   c                   s\   t ƒ  ¡  |jj}|j}|| _|jsJ ‚|| _t|t|dƒd| _	t
|jƒ| _| j	j| _d S )NÚmodel)r   r5   )r9   r:   r„   r…   r4   rp   Útie_word_embeddingsr}   r!   r¯   r   r†   Úlogits_processorr   )r>   r   r5   rp   r4   r?   r-   r.   r:   |  s   


ÿÿzGemmaForCausalLM.__init__r   r$   c                 C   s   | j  |¡S rA   )r¯   r’   r‘   r-   r-   r.   r’   Ž  s   z GemmaForCausalLM.embed_input_idsNra   r“   r”   c                 C   s   |   ||||¡}|S rA   )r¯   )r>   r   ra   r“   r”   rb   r-   r-   r.   rE   ‘  s   ÿzGemmaForCausalLM.forwardrb   c                 C   s   |   | jj|¡}|S rA   )r±   r¯   r‡   )r>   rb   Úlogitsr-   r-   r.   Úcompute_logits  s   zGemmaForCausalLM.compute_logitsr˜   c                 C   s$   t | | jjr	dgnd d}| |¡S )Nzlm_head.)Úskip_prefixes)r   rp   r°   r­   )r>   r˜   Úloaderr-   r-   r.   r­   ¤  s
   þ
zGemmaForCausalLM.load_weights)NN)rF   rG   rH   Úpacked_modules_mappingr
   rJ   r:   rm   rn   r’   r   rE   r³   r   r|   r    r­   rK   r-   r-   r?   r.   r®   o  s6    þúûþýüû
úþ
ý,r®   )@Ú__doc__Úcollections.abcr   Ú	functoolsr   Ú	itertoolsr   Útypingr   rm   r   Útransformersr   Úvllm.compilation.decoratorsr   Úvllm.configr	   r
   Úvllm.distributedr   r   Úvllm.loggerr   Ú%vllm.model_executor.layers.activationr   Ú$vllm.model_executor.layers.attentionr   Ú$vllm.model_executor.layers.layernormr   Ú!vllm.model_executor.layers.linearr   r   r   Ú+vllm.model_executor.layers.logits_processorr   Ú'vllm.model_executor.layers.quantizationr   Ú+vllm.model_executor.layers.rotary_embeddingr   Ú3vllm.model_executor.layers.vocab_parallel_embeddingr   Ú-vllm.model_executor.model_loader.weight_utilsr   Úvllm.sequencer   Ú
interfacesr   r   Úutilsr   r   r   r    r!   rF   r*   rJ   ÚModuler/   r0   rL   ro   r}   r®   r-   r-   r-   r.   Ú<module>   sN   ÿþý"P9i