o
    
Û¾i<+  ã                   @   sž   d Z ddlZddlmZ ddlmZ ddlmZ eƒ r!ddlmZ ddl	m
Z
 ddlmZ d	d
lmZmZmZmZ e
eƒZG dd„ deƒZG dd„ deƒZdS )z$Attention layer with FlashAttention.é    N)ÚAttentionType)Ú#is_flash_attn_varlen_func_available)Ú%triton_reshape_and_cache_flash_diffkv)Úflash_attn_varlen_func)Úinit_logger)Úget_kv_cache_layouté   )ÚFlashAttentionBackendÚFlashAttentionImplÚFlashAttentionMetadataÚcascade_attentionc                   @   s¬   e Zd ZU dZeed< ededdfdd„ƒZede	fdd„ƒZ
eded	 fd
d„ƒZe	ddedededede	deedf fdd„ƒZe	ddedeedf fdd„ƒZdS )ÚFlashAttentionDiffKVBackendé€   Úhead_size_vÚreturnNc                 C   s
   || _ d S ©N)r   )Úclsr   © r   ú`/home/ubuntu/.local/lib/python3.10/site-packages/vllm/v1/attention/backends/flash_attn_diffkv.pyÚset_head_size_v    s   
z+FlashAttentionDiffKVBackend.set_head_size_vc                   C   s   dS )NÚFLASH_ATTN_DIFFKVr   r   r   r   r   Úget_name$   ó   z$FlashAttentionDiffKVBackend.get_namer
   c                   C   s   t S r   )ÚFlashAttentionDiffKVImplr   r   r   r   Úget_impl_cls(   r   z(FlashAttentionDiffKVBackend.get_impl_clsÚautoÚ
num_blocksÚ
block_sizeÚnum_kv_headsÚ	head_sizeÚcache_dtype_str.c                 C   s&   |d dkr
t dƒ‚| |||tj fS )Né   r   z$Block size must be a multiple of 16.)Ú
ValueErrorr   r   )r   r   r   r   r    r   r   r   Úget_kv_cache_shape.   s   üz.FlashAttentionDiffKVBackend.get_kv_cache_shapeFÚinclude_num_layers_dimensionc                 C   sV   t ƒ }|dkr| rdS |dkrd}|S |dkr| rdS |dkr#d}|S td|› dƒ‚)	NÚNHD)r   r   é   é   é   )r   r   r&   r'   ÚHND)r   r'   r   r&   r(   )r   r&   r   r'   zUnknown cache layout format Ú.)r   r"   )r$   Úcache_layoutÚstride_orderr   r   r   Úget_kv_cache_stride_order?   s   	øÿz5FlashAttentionDiffKVBackend.get_kv_cache_stride_order)r   )F)Ú__name__Ú
__module__Ú__qualname__r   ÚintÚ__annotations__Úclassmethodr   ÚstaticmethodÚstrr   Útyper   Útupler#   Úboolr-   r   r   r   r   r      s<   
 ûÿþýüû
úÿÿ
þr   c                   @   sf   e Zd Z			ddejjdejdejdejdejdedejdB d	ejdB d
ejdB dejfdd„ZdS )r   NÚlayerÚqueryÚkeyÚvalueÚkv_cacheÚattn_metadataÚoutputÚoutput_scaleÚoutput_block_scaler   c
                 C   sf  |dusJ dƒ‚| j dusJ dƒ‚|dus|	durtdƒ‚|du r&| d¡S | j}
|j}|
tjtjfv rN|  |d|… |d|… |d|… |d|… ||¡S |dd| j	…f }|d| j	d…f }| j
du r{|dur{|dur{t||||j| j|j|jƒ | j d¡r‘t | j¡}| |¡}| |¡}|jsP|j}|j}|j}|j}|j}|j}|jd d | jf}| jdkrã| j|d|… |d|… |d|… |||d|… ||j  |¡|j  |¡|j  |¡d	
 |S | j!durít"| j!ƒnd}t#d+i d
|d|… “d|“d|“d|d|… “d|“d|“d|“d|“d| j$“d|j%“d| j&“d|“d|“d| j'“d|“d| j “d|j  |¡“d|j  |¡“d|j  |¡“d|j(“d| j)“Ž |S t*|d|… |d|… ||fi d|j“d |j“d!|j+“d"|j,“d#|j-“d$|j“d| j$“d| j&“d%| j!“d&| j'“d|j“d'|j.“d(|j(“d| j “d)|j/“d*|j“d|j“d|j“d|j“d| j)“Ž |S ),a©  Forward pass with FlashAttention.

        Args:
            query: shape = [num_tokens, num_heads, head_size]
            key: shape = [num_tokens, num_kv_heads, head_size]
            value: shape = [num_tokens, num_kv_heads, head_size_v]
            kv_cache: shape =
                [num_blocks, block_size, num_kv_heads, head_size + head_size_v]
            attn_metadata: Metadata for attention.
        Returns:
            shape = [num_tokens, num_heads * head_size_v]
        NOTE: FP8 quantization, flash-attn expect the size of
              {q,k,v}_descale to be (num_sequences, num_kv_heads).
              We use torch's .expand() to avoid duplicating values
        NzOutput tensor must be provided.z$FlashAttention version not detected.zEfused output quantization is not yet supported for FlashAttentionImplr   .Úfp8r   )Ú	q_descaleÚ	k_descaleÚ	v_descaleÚqÚkÚvÚoutÚcu_seqlens_qÚmax_seqlen_qÚ	seqused_kÚmax_seqlen_kÚsoftmax_scaleÚcausalÚalibi_slopesÚwindow_sizeÚblock_tableÚsoftcapÚscheduler_metadataÚ
fa_versionrC   rD   rE   Ú
num_splitsÚs_auxÚcu_query_lensÚmax_query_lenÚcu_prefix_query_lensÚprefix_kv_lensÚsuffix_kv_lensÚ
max_kv_lenÚsliding_windowÚlogits_soft_capÚcommon_prefix_lenÚmax_num_splitsÚprefix_scheduler_metadataÚsuffix_scheduler_metadatar   )0Úvllm_flash_attn_versionÚNotImplementedErrorÚfill_Ú	attn_typeÚnum_actual_tokensr   ÚENCODER_ONLYÚENCODERÚ_forward_encoder_attentionr   Úkv_sharing_target_layer_namer   Úslot_mappingÚkv_cache_dtypeÚ_k_scaleÚ_v_scaleÚ
startswithr	   Úget_fp8_dtype_for_flashattnÚviewÚuse_cascadeÚquery_start_locÚseq_lensrY   Úmax_seq_lenrR   rT   Úshaper   Údcp_world_sizeÚ_forward_with_dcpÚ_q_scaleÚexpandr^   Úlistr   ÚscalerO   rP   r_   ra   Úsinksr   rZ   r[   r\   r`   rb   )Úselfr9   r:   r;   r<   r=   r>   r?   r@   rA   rg   rh   Ú	key_cacheÚvalue_cacheÚdtyperJ   rL   rK   rM   rR   rT   Údescale_shapeÚsliding_window_sizer   r   r   ÚforwardX   s<  ÿÿ



ú
ù
ÿ




ö

ÿýÿþýüûúùø	÷
öõôóòñðïîíìë

üûúùø	÷
öõôóòñðïîíìëêéèz FlashAttentionDiffKVImpl.forward)NNN)	r.   r/   r0   ÚtorchÚnnÚModuleÚTensorr   r†   r   r   r   r   r   W   s2    	öþýüûúùø	÷
öõr   )Ú__doc__r‡   Úvllm.v1.attention.backendr   Ú#vllm.v1.attention.backends.fa_utilsr   Ú4vllm.v1.attention.ops.triton_reshape_and_cache_flashr   r   Úvllm.loggerr   Ú vllm.v1.attention.backends.utilsr   Ú
flash_attnr	   r
   r   r   r.   Úloggerr   r   r   r   r   r   Ú<module>   s   ;