o
    'ºi+k  ã                9   @   sd  U d dl mZ d dlmZ d dlZddlmZ ddlmZ zd dl	Z	dZ
W n ey2   dZ	d	Z
Y nw dai Zeejejf ed
< dejfdd„Zdejjfdd„ZG dd„ deƒZddddddd	dddddddddœdejdejdejdedee dee deej dejdeej dee dee dee d eej d!eej d"eej d#eej d$eej d%eej d&eej d'eej f(d(d)„Ze
r>e	je	jjgd*e	jed+ddddddd	ddddddddd,œdejdejdejdedee dee deej deej deej dee dee d eej d!eej d"eej d#eej d$eej d%eej d&eej d'eej f&d-d.„ƒƒZ ddddddddddddd/œdejdejdejded0ejd1ededejdejdeej d2eded3eej d4eej d5eej d eej d!eej d"eej d#eej d$eej d%eej d&eej d'eej d6e!ejejf f0d7d8„Z"edddddddddddd	ddd9œdejdejdejded0ejd1ededejdejdeej d2eded3eej d4eej d5eej d eej d!eej d"eej d#eej d$eej d%eej d&eej d:ed;ee# d'eej d6e!ejeej f f4d<d=„ƒZ$dS )>é    )ÚEnum)ÚOptionalNé   )Úflashinfer_apié   )Úget_cudnn_fmha_gen_moduleTFÚ_dummy_scale_tensorsÚdevicec                 C   s>   t  | ¡}|d u rtjdg| tjd dddd¡}|t | < |S )Ng      ð?©r	   Údtyper   )r   ÚgetÚtorchÚtensorÚfloat32Úreshape)r	   Út© r   úU/home/ubuntu/veenaModal/venv/lib/python3.10/site-packages/flashinfer/cudnn/prefill.pyÚ_get_dummy_scale_tensor   s
   
 r   Ústreamc                 C   s"   t d u rt ¡ a t t | j¡ t S )N)Ú_cudnn_handleÚcudnnÚcreate_handleÚ
set_streamÚcuda_stream)r   r   r   r   Ú_create_cudnn_handle   s   r   c                   @   sl   e Zd ZdZdZdZdZdZdZdZ	dZ
d	Zd
ZdZdZdZdZdZdZdZdZdZdZdZdZdZdZdS )ÚUIDsr   r   r   é   éd   ée   éÈ   éÉ   éÊ   é2   é3   é4   é5   é6   iè  ié  é–   é—   é˜   é™   éš   é›   é    é¡   N)Ú__name__Ú
__module__Ú__qualname__ÚRESERVED_INVALID_UIDÚQ_UIDÚK_UIDÚV_UIDÚACTUAL_SEQ_LENS_Q_UIDÚACTUAL_SEQ_LENS_KV_UIDÚBLOCK_TABLES_UIDÚBLOCK_TABLES_K_UIDÚBLOCK_TABLES_V_UIDÚRAGGED_Q_UIDÚRAGGED_O_UIDÚRAGGED_STATS_UIDÚRAGGED_K_UIDÚRAGGED_V_UIDÚO_UIDÚ	STATS_UIDÚQ_SCALE_UIDÚK_SCALE_UIDÚV_SCALE_UIDÚS_SCALE_UIDÚS_DESCALE_UIDÚO_SCALE_UIDÚ
S_AMAX_UIDÚ
O_AMAX_UIDr   r   r   r   r   )   s2    r   )Úmax_token_seq_qÚmax_sequence_kvÚactual_seq_lens_qÚblock_tablesÚ	page_sizeÚbottom_right_causal_maskÚ
return_lseÚbatch_offsets_qÚbatch_offsets_oÚbatch_offsets_kÚbatch_offsets_vÚbatch_offsets_statsÚoutÚlseÚo_data_typeÚqÚk_cacheÚv_cacheÚscalerK   rL   rM   Úactual_seq_lens_kvrN   rO   rP   rQ   rR   rS   rT   rU   rV   rW   rX   rY   c                C   sÚ   |j d }|  ¡ dkr| j d | j d }}n|  ¡ dkr(| j d | j d }}| ¡ dkr:|j d |j d }}n| ¡ dkrK|j d |j d }}|d urT|j d }	||  ¡ | j| ¡ |||||||d u||
|	f}|S )Nr   r   r   r   é   )ÚshapeÚdimr   )rZ   r[   r\   r]   rK   rL   rM   r^   rN   rO   rP   rQ   rR   rS   rT   rU   rV   rW   rX   rY   Úgraph_bÚh_qoÚd_qkÚh_kvÚd_voÚkeyr   r   r   Ú_sdpa_prefill_key_fnK   s6   

òrh   )Ú
heur_modes)Úkey_fn)rK   rL   rM   r^   rN   rP   rQ   rR   rS   rT   rU   rV   rW   rX   rY   c          :      C   sÒ  t tj | j¡ƒ}|jd }|}|}tj ¡ st	dƒ‚tj 
| j¡}tj 
|j¡}tj 
|j¡}|d u r7| j}tj 
|¡}|tjjksI|tjjkrXt ¡ dk rXt	dt ¡ › ƒ‚t |¡€\}}|  ¡ dkrs| jd | jd }}n|  ¡ dkr…| jd | jd }}ntd	| j› ƒ‚|jd
||||f|| ||| df|d}|tjjks¯|tjjkr|jdddtjjd} |jdddtjjd}!|jdddtjjd}"|jdddtjjd}#|jdddtjjd}$|jdddtjjd}%|  tjj¡ |! tjj¡ |" tjj¡ |# tjj¡ |$ tjj¡ |% tjj¡ |d ur1| |¡}&|& tjj¡ |  |&¡ | ¡ dkrM|d u sAJ dƒ‚|jd |jd }'}(n| ¡ dkr`|jd |jd }'}(ntd|j› ƒ‚| ¡ dkrÊ|jd||'||f|'| | |||' df|d})|d urœ| |¡}*|* tj!j¡ |)  |*¡ |jd||'||(f|'|( | |(|(|' df|d}+|d urÉ| |¡},|, tj"j¡ |+  |,¡ n| ¡ dkré|jd|j| #¡ |d})|jd|j| #¡ |d}+| tj$j¡ |) tj%j¡ |+ tj&j¡ |d ur)| '|jd d|jd d¡}-| |-¡}.|. tj(j¡ | |-¡}/|/ tj)j¡ |d ur?| |¡}0|0 *d¡ |0 tj+j¡ |d urU| |¡}1|1 *d¡ |1 tj,j¡ |d uo]|d u}2|tjj-ksl|tjj.kr§|j/d||)|+|d ury|0nd |d ur|1nd |2||
|	|d ur|.nd |d ur•|/nd |d ur|nd tjjd\}3}4n›|tjjksµ|tjjkrB|j0d.i d
|“d|)“d|+“d| “d|!“d|"“d |#“d!|$“d"|%“d#d$“d%|“d&|	“d'|2“d(|d urè|0nd “d)|d urò|1nd “d*|d urü|.nd “d+|d ur|/nd “d,|d ur|nd “Ž\}3}4}5}6|5 tj1j¡ 2d-¡ 3d¡ 4d¡ 5tjj¡ |6 tj6j¡ 2d-¡ 3d¡ 4d¡ 5tjj¡ |d urX| |¡}7|7 tj7j¡ |3  |7¡ |d urn| |¡}8|8 tj8j¡ |4  |8¡ |3 tj9j¡ 2d$¡ 3||||(g¡ 4||( | |(|(| dg¡ 5|¡ |
r±|4 tj:j¡ 2|
¡ 5tjj¡ 3|||dg¡ 4|| d|dg¡ ||)|+|3g}9|
r¿|9 ;|4¡ |d urÉ|9 ;|0¡ |d urÓ|9 ;|1¡ ||9fW  d   ƒ S 1 sâw   Y  d S )/Nr   ztorch is not availablei5f zKFP8 is not supported in cuDNN backend version < 9.17.1, current version is r   r   r   r_   zInvalid query tensor shape: rZ   )Únamera   ÚstrideÚ	data_typeÚq_scale)r   r   r   r   Úk_scaleÚv_scaleÚs_scaleÚ	s_descaleÚo_scalez+block_tables needs 4 dimensions of kv cachezInvalid kv cache tensor shape: r[   r\   rM   r^   Úsdpa)rk   rZ   ÚkÚvÚ	seq_len_qÚ
seq_len_kvÚuse_padding_maskÚ
attn_scaleÚgenerate_statsÚuse_causal_mask_bottom_rightÚpaged_attention_k_tableÚpaged_attention_v_tableÚpaged_attention_max_seq_len_kvÚcompute_data_typeru   rv   Ú	descale_qÚ	descale_kÚ	descale_vÚscale_sÚ	descale_sÚscale_or{   Trz   r|   ry   rw   rx   r}   r~   r   Fr   )<r   r   ÚcudaÚcurrent_streamr	   r`   r   Ú	datatypesÚis_torch_availableÚRuntimeErrorÚ_torch_to_cudnn_data_typer   rm   ÚFP8_E4M3ÚFP8_E5M2Úbackend_versionÚgraphra   Ú
ValueErrorr   ÚFLOATÚset_uidr   rC   ÚvaluerD   rE   rF   rG   rH   Útensor_liker<   Úset_ragged_offsetr?   r@   rl   r4   r5   r6   r   r:   r;   Úset_namer7   r8   ÚBFLOAT16ÚHALFrt   Úsdpa_fp8rI   Ú
set_outputÚset_dimÚ
set_strideÚset_data_typerJ   r=   r>   rA   rB   Úappend):rZ   r[   r\   r]   rK   rL   rM   r^   rN   rP   rQ   rR   rS   rT   rU   rV   rW   rX   rY   Úhandlerb   Ú
graph_s_qoÚ
graph_s_kvÚcudnn_q_data_typeÚcudnn_k_data_typeÚcudnn_v_data_typeÚcudnn_o_data_typeÚgÚ_rc   rd   Úcudnn_qÚcudnn_q_scaleÚcudnn_k_scaleÚcudnn_v_scaleÚcudnn_s_scaleÚcudnn_s_descaleÚcudnn_o_scaleÚragged_qre   rf   Úcudnn_k_cacheÚragged_kÚcudnn_v_cacheÚragged_vÚnd_block_tablesÚcudnn_k_block_tablesÚcudnn_v_block_tablesÚcudnn_actual_seq_lens_qÚcudnn_actual_seq_lens_kvÚpadding_maskÚOÚStatsÚamax_sÚamax_oÚragged_oÚragged_statsÚtensors_to_returnr   r   r   Ú_build_prefill_graph†   s   

ÿ
üüüüüüü


ÿþ
ü



ü


€üü
ÿ







ÿ
ÿ
ÿä 
ÿþýüûúùø	÷
öõôó
ÿ€ï
ÿ€ê€ç€ä€á#ÿÿ






ÿÿÿ
ÿ


  &òrÂ   )rN   rn   ro   rp   rR   rS   rT   rU   rV   rW   rX   rY   Úworkspace_bufferÚmax_token_per_sequenceÚcausalrn   ro   rp   Úreturnc                C   s   t di d| “d|“d|“d|“d|“d|“d|“d|“d	|	“d
|
“d|“d|“d|“d|“d|“d|“d|“d|“d|“Ž\}}tjj| tjj|tjj|tjj|i}|d ur\||tjj< |d urf||tjj< |d urp||tj	j< |d urz||tj
j< |d ur„||tjj< |d urŽ||tjj< |	d urž|	|tjj< |	|tjj< |r°||tjj< |d ur°||tjj< |d urÑt| jƒ}||tjj< ||tjj< ||tjj< ||tjj< |d urÛ||tjj< |d urå||tjj< ttj | j¡ƒ}|j|||d |rü||fS |d fS )NrZ   r[   r\   r]   rK   rL   rM   r^   rN   rP   rQ   rR   rS   rT   rU   rV   rW   rX   rY   )Ú	workspacer    r   )rÂ   r   r4   r”   r5   r6   rA   r7   r8   r<   r=   r?   r@   r:   r;   rB   r>   r   r	   rC   rF   rG   rH   rD   rE   r   r   r‡   rˆ   Úexecute)rZ   r[   r\   r]   rÃ   rÄ   rL   rM   r^   rN   rÅ   rQ   rn   ro   rp   rR   rS   rT   rU   rV   rW   rX   rY   r   ÚtensorsÚvar_mapÚdummy_scale_tensorr    r   r   r   Ú_batch_prefill_with_kv_cacheÇ  sœ   ÿþýüûúùø	÷
öõôóòñðïîíü
rÌ   )rN   rn   ro   rp   rR   rS   rT   rU   rV   rW   rX   Úis_cuda_graph_compatibleÚbackendrY   rÍ   rÎ   c          "      C   s@  | j d }|j d }|  ¡ dkr| j d | j d }}n|  ¡ dkr-| j d | j d }}| ¡ dkr9|j d }n| ¡ dkrD|j d }|rV|du rVtj|||| jtjd}|durf|j |||fkrftdƒ‚|du rm| j}|du r|||f}tj|| j|d}trÏ|d	krÏt	d'i d
| “d|“d|“d|“d|“d|“d|“d|“d|“d|	“d|
“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“d |“ŽS |sÕJ d!ƒ‚|d"krÝ|	du sé|d#krå|	duséJ d$ƒ‚|du rï|}|j
| jd%d&}|j
| jd%d&} tƒ j}!|!|||| |||||||| |	|
|||dddd|ƒ ||fS )(a3  Performs batched prefill attention with paged KV cache using cuDNN.

    Args:
        q: Query tensor of shape (Total number of tokens, num_heads_qo, head_dim)
        k_cache: Key cache tensor of shape   (total_num_pages, num_heads_kv, page_size, head_dim) if paged kv cache is enabled else (Total sequence length of kv, num_heads_kv, d_qk)
        v_cache: Value cache tensor of shape (total_num_pages, num_heads_kv, page_size, head_dim) if paged kv cache is enabled else (Total sequence length of kv, num_heads_kv, d_vo)
        scale: Scaling factor for attention scores, typically 1/sqrt(head_dim)
        workspace_buffer: Workspace buffer for cuDNN operations. Scales with batch size. 128 MB should be sufficient for most cases
        max_token_per_sequence: Maximum number of tokens per query sequence (s_qo_max)
        max_sequence_kv: Maximum number of tokens per key/value sequence (s_kv_max)
        actual_seq_lens_q:  Actual number of tokens per query sequence shape (batch_size,) on cpu or device (cpu if cuda_graph is False)
        actual_seq_lens_kv: Actual sequence lengths for key/values per batch, shape (batch_size,) on CPU or device (cpu if cuda_graph is False)
        block_tables: Page table mapping for KV cache, shape (batch_size, num_pages_per_seq) on GPU
        causal: Whether to apply causal masking
        return_lse: Whether to return log-sum-exp values (must be True)
        out: Optional pre-allocated output tensor
        lse: Optional pre-allocated tensor for log-sum-exp values if return_lse is True else returns None
        is_cuda_graph_compatible: Whether the prefill operation is compatible with CUDA graph
        q_scale: Optional scale tensor for query tensor of shape (1, 1, 1, 1) on GPU
        k_scale: Optional scale tensor for key tensor of shape (1, 1, 1, 1) on GPU
        v_scale: Optional scale tensor for value tensor of shape (1, 1, 1, 1) on GPU
        batch_offsets_q: Optional batch offsets for query tensor of shape (batch_size,) on GPU
        batch_offsets_o: Optional batch offsets for output tensor of shape (batch_size,) on GPU
        batch_offsets_k: Optional batch offsets for key tensor of shape (batch_size,) on GPU
        batch_offsets_v: Optional batch offsets for value tensor of shape (batch_size,) on GPU
        o_data_type: Optional data type for output tensor
    Returns:
        Output tensor of shape (batch_size * seq_len_q, num_heads_qo, head_dim)
        If return_lse is True, also returns log-sum-exp tensor of shape (batch_size, seq_len_q, num_heads_qo)

    Note:
        Query and KV heads can have different sizes (num_heads_qo >= num_heads_kv)
        When using cuda graph, actual_seq_lens_q and actual_seq_lens_kv must be on the same device as q
        Head dimension of query and key must be 128 or 192
        Head dimension of value and output must be 128
    r   r   r   r   r_   Nr
   zAlse must have shape (num_sequences, max_token_per_sequence, h_qo)ÚcubinrZ   r[   r\   r]   rÃ   rÄ   rL   rM   r^   rN   rÅ   rQ   rn   ro   rp   rR   rS   rT   rU   rV   rW   rX   rY   z)Currently only supports return_lse = TrueéÀ   é€   ziCurrently only supports if d_qk = 192 and block_tables is None or d_qk = 128 and block_tables is not NoneT)Únon_blockingr   )r`   ra   r   Úemptyr	   r   r‘   r   ÚCUDNN_AVAILABLErÌ   Útor   Úprefill)"rZ   r[   r\   r]   rÃ   rÄ   rL   rM   r^   rN   rÅ   rQ   rn   ro   rp   rR   rS   rT   rU   rV   rW   rX   rÍ   rÎ   rY   Ú
num_tokensÚnum_sequencesrc   rd   rf   Ú	out_shapeÚactual_seq_lens_q_gpuÚactual_seq_lens_kv_gpuÚrun_funcr   r   r   Ú!cudnn_batch_prefill_with_kv_cache*  sÞ   
B

ûÿ
ÿþýüûúùø	÷
öõôóòñðïîíìëêéþêrÝ   )%Úenumr   Útypingr   r   Úapi_loggingr   Úutilsr   r   rÔ   Ú	Exceptionr   r   Údictr	   ÚTensorÚ__annotations__r   r‡   ÚStreamr   r   ÚfloatÚintÚboolr   rh   ÚjitÚ	heur_modeÚAÚgraph_cacherÂ   ÚtuplerÌ   ÚstrrÝ   r   r   r   r   Ú<module>   s
   þ
(ëÿþýüúùø	÷
öõôóòñðïîíì
ë9
ìÿþýüúùø	÷
öõôóòñðïîíì  Lèÿþýüûùø	÷
öõôóòñðïîíìëêéè
çcæÿþýüûùø	÷
öõôóòñðïîíìëêéèçæå