o
    ÒÙ¾iÊl  ã                9   @   sd  U d dl mZ d dlmZ d dlZddlmZ ddlmZ zd dl	Z	dZ
W n ey2   dZ	d	Z
Y nw dai Zeejejf ed
< dejfdd„Zdejjfdd„ZG dd„ deƒZddddddd	dddddddddœdejdejdejdedee dee deej dejdeej dee dee dee d eej d!eej d"eej d#eej d$eej d%eej d&eej d'eej f(d(d)„Ze
r>e	je	jjgd*e	jed+ddddddd	ddddddddd,œdejdejdejdedee dee deej deej deej dee dee d eej d!eej d"eej d#eej d$eej d%eej d&eej d'eej f&d-d.„ƒƒZ ddddddddddddd/œdejdejdejded0ejd1ededejdejdeej d2eded3eej d4eej d5eej d eej d!eej d"eej d#eej d$eej d%eej d&eej d'eej d6e!ejejf f0d7d8„Z"edddddddddddd	ddd9œdejdejdejded0ejd1ededejdejdeej d2eded3eej d4eej d5eej d eej d!eej d"eej d#eej d$eej d%eej d&eej d:ed;ee# d'eej d6e!ejeej f f4d<d=„ƒZ$dS )>é    )ÚEnum)ÚOptionalNé   )Úflashinfer_apié   )Úget_cudnn_fmha_gen_moduleTFÚ_dummy_scale_tensorsÚdevicec                 C   s>   t  | ¡}|d u rtjdg| tjd dddd¡}|t | < |S )Ng      ð?©r	   Údtyper   )r   ÚgetÚtorchÚtensorÚfloat32Úreshape)r	   Út© r   úL/home/ubuntu/.local/lib/python3.10/site-packages/flashinfer/cudnn/prefill.pyÚ_get_dummy_scale_tensor   s
   
 r   Ústreamc                 C   s"   t d u rt ¡ a t t | j¡ t S )N)Ú_cudnn_handleÚcudnnÚcreate_handleÚ
set_streamÚcuda_stream)r   r   r   r   Ú_create_cudnn_handle   s   r   c                   @   sl   e Zd ZdZdZdZdZdZdZdZ	dZ
d	Zd
ZdZdZdZdZdZdZdZdZdZdZdZdZdZdZdS )ÚUIDsr   r   r   é   éd   ée   éÈ   éÉ   éÊ   é2   é3   é4   é5   é6   iè  ié  é–   é—   é˜   é™   éš   é›   é    é¡   N)Ú__name__Ú
__module__Ú__qualname__ÚRESERVED_INVALID_UIDÚQ_UIDÚK_UIDÚV_UIDÚACTUAL_SEQ_LENS_Q_UIDÚACTUAL_SEQ_LENS_KV_UIDÚBLOCK_TABLES_UIDÚBLOCK_TABLES_K_UIDÚBLOCK_TABLES_V_UIDÚRAGGED_Q_UIDÚRAGGED_O_UIDÚRAGGED_STATS_UIDÚRAGGED_K_UIDÚRAGGED_V_UIDÚO_UIDÚ	STATS_UIDÚQ_SCALE_UIDÚK_SCALE_UIDÚV_SCALE_UIDÚS_SCALE_UIDÚS_DESCALE_UIDÚO_SCALE_UIDÚ
S_AMAX_UIDÚ
O_AMAX_UIDr   r   r   r   r   )   s2    r   )Úmax_token_seq_qÚmax_sequence_kvÚactual_seq_lens_qÚblock_tablesÚ	page_sizeÚbottom_right_causal_maskÚ
return_lseÚbatch_offsets_qÚbatch_offsets_oÚbatch_offsets_kÚbatch_offsets_vÚbatch_offsets_statsÚoutÚlseÚo_data_typeÚqÚk_cacheÚv_cacheÚscalerK   rL   rM   Úactual_seq_lens_kvrN   rO   rP   rQ   rR   rS   rT   rU   rV   rW   rX   rY   c                C   sÚ   |j d }|  ¡ dkr| j d | j d }}n|  ¡ dkr(| j d | j d }}| ¡ dkr:|j d |j d }}n| ¡ dkrK|j d |j d }}|d urT|j d }	||  ¡ | j| ¡ |||||||d u||
|	f}|S )Nr   r   r   r   é   )ÚshapeÚdimr   )rZ   r[   r\   r]   rK   rL   rM   r^   rN   rO   rP   rQ   rR   rS   rT   rU   rV   rW   rX   rY   Úgraph_bÚh_qoÚd_qkÚh_kvÚd_voÚkeyr   r   r   Ú_sdpa_prefill_key_fnK   s6   

òrh   )Ú
heur_modes)Úkey_fn)rK   rL   rM   r^   rN   rP   rQ   rR   rS   rT   rU   rV   rW   rX   rY   c          =      C   s  t tj | j¡ƒ}|jd }|}|}tj ¡ st	dƒ‚tj 
| j¡}tj 
|j¡}tj 
|j¡}|d u r7| j}tj 
|¡}|tjjksI|tjjkrXt ¡ dk rXt	dt ¡ › ƒ‚t |¡¡\}}|  ¡ dkrz| jd | jd }}|  ¡ \}} }!n!|  ¡ dkr“| jd | jd }}|  ¡ \}} }!ntd	| j› ƒ‚|jd
||||f|| | ||!f|d}"|tjjks»|tjjkr'|jdddtjjd}#|jdddtjjd}$|jdddtjjd}%|jdddtjjd}&|jdddtjjd}'|jdddtjjd}(|# tjj¡ |$ tjj¡ |% tjj¡ |& tjj¡ |' tjj¡ |( tjj¡ |d ur=| |¡})|) tj j¡ |" !|)¡ | ¡ dkrY|d u sMJ dƒ‚|jd |jd }*}+n| ¡ dkrl|jd |jd }*}+ntd|j› ƒ‚| ¡ dkrë| ¡ \}} }!|jd||*||f|*| | | ||!f|d},|d ur­| |¡}-|- tj"j¡ |, !|-¡ | ¡ dks¸J dƒ‚| ¡ \}} }!|jd||*||+f|*|+ | | ||!f|d}.|d urê| |¡}/|/ tj#j¡ |. !|/¡ n| ¡ dkr
|jd|j| ¡ |d},|jd|j| ¡ |d}.|" tj$j¡ |, tj%j¡ |. tj&j¡ |d urJ| '|jd d|jd d¡}0| |0¡}1|1 tj(j¡ | |0¡}2|2 tj)j¡ |d ur`| |¡}3|3 *d¡ |3 tj+j¡ |d urv| |¡}4|4 *d¡ |4 tj,j¡ |d uo~|d u}5|tjj-ks|tjj.krÈ|j/d|"|,|.|d urš|3nd |d ur¢|4nd |5||
|	|d ur®|1nd |d ur¶|2nd |d ur¾|nd tjjd\}6}7n›|tjjksÖ|tjjkrc|j0d/i d
|"“d|,“d|.“d|#“d|$“d |%“d!|&“d"|'“d#|(“d$d%“d&|“d'|	“d(|5“d)|d ur	|3nd “d*|d ur|4nd “d+|d ur|1nd “d,|d ur'|2nd “d-|d ur1|nd “Ž\}6}7}8}9|8 tj1j¡ 2d.¡ 3d¡ 4d¡ 5tjj¡ |9 tj6j¡ 2d.¡ 3d¡ 4d¡ 5tjj¡ |d ury| |¡}:|: tj7j¡ |6 !|:¡ |d ur| |¡};|; tj8j¡ |7 !|;¡ |6 tj9j¡ 2d%¡ 3||||+g¡ 4||+ | |+|+| dg¡ 5|¡ |
rÒ|7 tj:j¡ 2|
¡ 5tjj¡ 3|||dg¡ 4|| d|dg¡ |"|,|.|6g}<|
rà|< ;|7¡ |d urê|< ;|3¡ |d urô|< ;|4¡ ||<fW  d   ƒ S 1 sw   Y  d S )0Nr   ztorch is not availablei5f zKFP8 is not supported in cuDNN backend version < 9.17.1, current version is r   r   r   r_   zInvalid query tensor shape: rZ   )Únamera   ÚstrideÚ	data_typeÚq_scale)r   r   r   r   Úk_scaleÚv_scaleÚs_scaleÚ	s_descaleÚo_scalez+block_tables needs 4 dimensions of kv cachezInvalid kv cache tensor shape: r[   z=v_cache must have 3 dimensions since k_cache has 3 dimensionsr\   rM   r^   Úsdpa)rk   rZ   ÚkÚvÚ	seq_len_qÚ
seq_len_kvÚuse_padding_maskÚ
attn_scaleÚgenerate_statsÚuse_causal_mask_bottom_rightÚpaged_attention_k_tableÚpaged_attention_v_tableÚpaged_attention_max_seq_len_kvÚcompute_data_typeru   rv   Ú	descale_qÚ	descale_kÚ	descale_vÚscale_sÚ	descale_sÚscale_or{   Trz   r|   ry   rw   rx   r}   r~   r   Fr   )<r   r   ÚcudaÚcurrent_streamr	   r`   r   Ú	datatypesÚis_torch_availableÚRuntimeErrorÚ_torch_to_cudnn_data_typer   rm   ÚFP8_E4M3ÚFP8_E5M2Úbackend_versionÚgraphra   rl   Ú
ValueErrorr   ÚFLOATÚset_uidr   rC   ÚvaluerD   rE   rF   rG   rH   Útensor_liker<   Úset_ragged_offsetr?   r@   r4   r5   r6   r   r:   r;   Úset_namer7   r8   ÚBFLOAT16ÚHALFrt   Úsdpa_fp8rI   Ú
set_outputÚset_dimÚ
set_strideÚset_data_typerJ   r=   r>   rA   rB   Úappend)=rZ   r[   r\   r]   rK   rL   rM   r^   rN   rP   rQ   rR   rS   rT   rU   rV   rW   rX   rY   Úhandlerb   Ú
graph_s_qoÚ
graph_s_kvÚcudnn_q_data_typeÚcudnn_k_data_typeÚcudnn_v_data_typeÚcudnn_o_data_typeÚgÚ_rc   rd   Ús_strideÚh_strideÚd_strideÚcudnn_qÚcudnn_q_scaleÚcudnn_k_scaleÚcudnn_v_scaleÚcudnn_s_scaleÚcudnn_s_descaleÚcudnn_o_scaleÚragged_qre   rf   Úcudnn_k_cacheÚragged_kÚcudnn_v_cacheÚragged_vÚnd_block_tablesÚcudnn_k_block_tablesÚcudnn_v_block_tablesÚcudnn_actual_seq_lens_qÚcudnn_actual_seq_lens_kvÚpadding_maskÚOÚStatsÚamax_sÚamax_oÚragged_oÚragged_statsÚtensors_to_returnr   r   r   Ú_build_prefill_graph†   s  

ÿ
üüüüüüü


ÿþ
ü


ÿ
ü


€üü
ÿ







ÿ
ÿ
ÿä 
ÿþýüûúùø	÷
öõôó
ÿ€ï
ÿ€ê€ç€ä€á#ÿÿ






ÿÿÿ
ÿ


  &ërÅ   )rN   rn   ro   rp   rR   rS   rT   rU   rV   rW   rX   rY   Úworkspace_bufferÚmax_token_per_sequenceÚcausalrn   ro   rp   Úreturnc                C   s   t di d| “d|“d|“d|“d|“d|“d|“d|“d	|	“d
|
“d|“d|“d|“d|“d|“d|“d|“d|“d|“Ž\}}tjj| tjj|tjj|tjj|i}|d ur\||tjj< |d urf||tjj< |d urp||tj	j< |d urz||tj
j< |d ur„||tjj< |d urŽ||tjj< |	d urž|	|tjj< |	|tjj< |r°||tjj< |d ur°||tjj< |d urÑt| jƒ}||tjj< ||tjj< ||tjj< ||tjj< |d urÛ||tjj< |d urå||tjj< ttj | j¡ƒ}|j|||d |rü||fS |d fS )NrZ   r[   r\   r]   rK   rL   rM   r^   rN   rP   rQ   rR   rS   rT   rU   rV   rW   rX   rY   )Ú	workspacer    r   )rÅ   r   r4   r”   r5   r6   rA   r7   r8   r<   r=   r?   r@   r:   r;   rB   r>   r   r	   rC   rF   rG   rH   rD   rE   r   r   r‡   rˆ   Úexecute)rZ   r[   r\   r]   rÆ   rÇ   rL   rM   r^   rN   rÈ   rQ   rn   ro   rp   rR   rS   rT   rU   rV   rW   rX   rY   r   ÚtensorsÚvar_mapÚdummy_scale_tensorr    r   r   r   Ú_batch_prefill_with_kv_cacheÎ  sœ   ÿþýüûúùø	÷
öõôóòñðïîíü
rÏ   )rN   rn   ro   rp   rR   rS   rT   rU   rV   rW   rX   Úis_cuda_graph_compatibleÚbackendrY   rÐ   rÑ   c          "      C   s@  | j d }|j d }|  ¡ dkr| j d | j d }}n|  ¡ dkr-| j d | j d }}| ¡ dkr9|j d }n| ¡ dkrD|j d }|rV|du rVtj|||| jtjd}|durf|j |||fkrftdƒ‚|du rm| j}|du r|||f}tj|| j|d}trÏ|d	krÏt	d'i d
| “d|“d|“d|“d|“d|“d|“d|“d|“d|	“d|
“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d |“ŽS |sÕJ d!ƒ‚|d"krÝ|	du sé|d#krå|	duséJ d$ƒ‚|du rï|}|j
| jd%d&}|j
| jd%d&} tƒ j}!|!|||| |||||||| |	|
|||dddd|ƒ ||fS )(a3  Performs batched prefill attention with paged KV cache using cuDNN.

    Args:
        q: Query tensor of shape (Total number of tokens, num_heads_qo, head_dim)
        k_cache: Key cache tensor of shape   (total_num_pages, num_heads_kv, page_size, head_dim) if paged kv cache is enabled else (Total sequence length of kv, num_heads_kv, d_qk)
        v_cache: Value cache tensor of shape (total_num_pages, num_heads_kv, page_size, head_dim) if paged kv cache is enabled else (Total sequence length of kv, num_heads_kv, d_vo)
        scale: Scaling factor for attention scores, typically 1/sqrt(head_dim)
        workspace_buffer: Workspace buffer for cuDNN operations. Scales with batch size. 128 MB should be sufficient for most cases
        max_token_per_sequence: Maximum number of tokens per query sequence (s_qo_max)
        max_sequence_kv: Maximum number of tokens per key/value sequence (s_kv_max)
        actual_seq_lens_q:  Actual number of tokens per query sequence shape (batch_size,) on cpu or device (cpu if cuda_graph is False)
        actual_seq_lens_kv: Actual sequence lengths for key/values per batch, shape (batch_size,) on CPU or device (cpu if cuda_graph is False)
        block_tables: Page table mapping for KV cache, shape (batch_size, num_pages_per_seq) on GPU
        causal: Whether to apply causal masking
        return_lse: Whether to return log-sum-exp values (must be True)
        out: Optional pre-allocated output tensor
        lse: Optional pre-allocated tensor for log-sum-exp values if return_lse is True else returns None
        is_cuda_graph_compatible: Whether the prefill operation is compatible with CUDA graph
        q_scale: Optional scale tensor for query tensor of shape (1, 1, 1, 1) on GPU
        k_scale: Optional scale tensor for key tensor of shape (1, 1, 1, 1) on GPU
        v_scale: Optional scale tensor for value tensor of shape (1, 1, 1, 1) on GPU
        batch_offsets_q: Optional batch offsets for query tensor of shape (batch_size,) on GPU
        batch_offsets_o: Optional batch offsets for output tensor of shape (batch_size,) on GPU
        batch_offsets_k: Optional batch offsets for key tensor of shape (batch_size,) on GPU
        batch_offsets_v: Optional batch offsets for value tensor of shape (batch_size,) on GPU
        o_data_type: Optional data type for output tensor
    Returns:
        Output tensor of shape (batch_size * seq_len_q, num_heads_qo, head_dim)
        If return_lse is True, also returns log-sum-exp tensor of shape (batch_size, seq_len_q, num_heads_qo)

    Note:
        Query and KV heads can have different sizes (num_heads_qo >= num_heads_kv)
        When using cuda graph, actual_seq_lens_q and actual_seq_lens_kv must be on the same device as q
        Head dimension of query and key must be 128 or 192
        Head dimension of value and output must be 128
    r   r   r   r   r_   Nr
   zAlse must have shape (num_sequences, max_token_per_sequence, h_qo)ÚcubinrZ   r[   r\   r]   rÆ   rÇ   rL   rM   r^   rN   rÈ   rQ   rn   ro   rp   rR   rS   rT   rU   rV   rW   rX   rY   z)Currently only supports return_lse = TrueéÀ   é€   ziCurrently only supports if d_qk = 192 and block_tables is None or d_qk = 128 and block_tables is not NoneT)Únon_blockingr   )r`   ra   r   Úemptyr	   r   r‘   r   ÚCUDNN_AVAILABLErÏ   Útor   Úprefill)"rZ   r[   r\   r]   rÆ   rÇ   rL   rM   r^   rN   rÈ   rQ   rn   ro   rp   rR   rS   rT   rU   rV   rW   rX   rÐ   rÑ   rY   Ú
num_tokensÚnum_sequencesrc   rd   rf   Ú	out_shapeÚactual_seq_lens_q_gpuÚactual_seq_lens_kv_gpuÚrun_funcr   r   r   Ú!cudnn_batch_prefill_with_kv_cache1  sÞ   
B

ûÿ
ÿþýüûúùø	÷
öõôóòñðïîíìëêéþêrà   )%Úenumr   Útypingr   r   Úapi_loggingr   Úutilsr   r   r×   Ú	Exceptionr   r   Údictr	   ÚTensorÚ__annotations__r   r‡   ÚStreamr   r   ÚfloatÚintÚboolr   rh   ÚjitÚ	heur_modeÚAÚgraph_cacherÅ   ÚtuplerÏ   Ústrrà   r   r   r   r   Ú<module>   s
   þ
(ëÿþýüúùø	÷
öõôóòñðïîíì
ë9
ìÿþýüúùø	÷
öõôóòñðïîíì  Sèÿþýüûùø	÷
öõôóòñðïîíìëêéè
çcæÿþýüûùø	÷
öõôóòñðïîíìëêéèçæå