o
    ÒÙ¾i¯m ã                <   @   sp  d Z 	 ddlZddlmZmZ ddlZddlZddlmZ ddl	m
Z
 ddlmZ ddlm  mZ z
ddlmZ dZW n eyK   d	Zd
d„ ZY nw dZdZdZdZdZdZdZdZdZdZdZdZ dZ!dZ"dZ#dZ$dZ%ee% Z&dZ'dZ(dZ)ddde*de*de*fdd„Z+ddde*de*de*fdd„Z,ej-dej.dej/dej0dej1e* d ej1e* d!ej/d"ej/d#ej/d$ej/d%ej/d&ej/d'ej/d(ej/d)ej/d*ej/d+ej1e2 d,ej1e2 d-ej1e2 d.ej1e* d/ej1e* d0ej1e* d1ej1e* d2ej1e* d3ej1e* d4ej1e3 d5ej1e3 d6ej1e3 f6d7d8„ƒZ4ej-dej.dej/dej0dej1e* d ej1e* d!ej/d"ej/d#ej/d$ej/d%ej/d&ej/d'ej/d(ej/d)ej/d*ej/d+ej1e2 d,ej1e2 d-ej1e2 d.ej1e* d/ej1e* d0ej1e* d1ej1e* d2ej1e* d3ej1e* d4ej1e3 d5ej1e3 d6ej1e3 f6d9d:„ƒZ5ej6dej/d!ej/d"ej/d#ej/d$ej/d%ej/d&ej/d'ej/d(ej/d)ej/d*ej/d+ej1e2 d,ej1e2 d-ej1e2 d.ej1e* d/ej1e* d0ej1e* d1ej1e* d2ej1e* d3ej1e* d4ej1e3 d5ej1e3 d6ej1e3 d;ej7f0d<d=„ƒZ8ej6dej/d!ej/d"ej/d#ej/d$ej/d%ej/d&ej/d'ej/d(ej/d)ej/d*ej/d+ej1e2 d,ej1e2 d-ej1e2 d.ej1e* d/ej1e* d0ej1e* d1ej1e* d2ej1e* d3ej1e* d4ej1e3 d5ej1e3 d6ej1e3 d;ej7f0d>d?„ƒZ9ej:d/e*d0e*d1e*d.e*d2e*d3e*d@ej;d-e2d5e3fdAdB„ƒZ<ej:d/e*d0e*d1e*d.e*d2e*d3e*d@ej;d-e2d5e3fdCdD„ƒZ=e			ded$ej/d%ej/d&ej/dEej/d!ej/d"ej/d#ej/d'ej/d-ee2 dFeej/ d5e3deej/ej/f fdGdH„ƒZ>ej-dej.dej/dej0d ej1e* d$ej/d%ej/d&ej/d"ej/d'ej/d!ej/d#ej/d(ej/d)ej/d+ej1e2 d,ej1e2 d-ej1e2 d1ej1e* d.ej1e* d5ej1e3 f&dIdJ„ƒZ?ej-dej.dej/dej0d ej1e* d$ej/d%ej/d&ej/d"ej/d'ej/d!ej/d#ej/d(ej/d)ej/d+ej1e2 d,ej1e2 d-ej1e2 d1ej1e* d.ej1e* d5ej1e3 f&dKdL„ƒZ@ej6d*ej/d$ej/d%ej/d&ej/d"ej/d'ej/d!ej/d#ej/dej/d)ej/d(ej/d+ej1e2 d,ej1e2 d-ej1e2 d/ej1e* d0ej1e* d1ej1e* d.ej1e* d2ej1e* d3ej1e* d4ej1e3 d5ej1e3 d;ej7f.dMdN„ƒZAej6d*ej/d$ej/d%ej/d&ej/d"ej/d'ej/d!ej/d#ej/dej/d)ej/d(ej/d+ej1e2 d,ej1e2 d-ej1e2 d/ej1e* d0ej1e* d1ej1e* d.ej1e* d2ej1e* d3ej1e* d4ej1e3 d5ej1e3 d;ej7f.dOdP„ƒZBe			ded$ej/d%ej/d&ej/dEej/d!ej/d"ej/d#ej/d'ej/d-ee2 dFeej/ d5e3deej/ej/f fdQdR„ƒZCej-dej/dSej/dej1e* d ej1e* dTej1e* d!ej/d"ej/d#ej/d$ej/d%ej/d&ej/d'ej/d(ej/d)ej/d*ej/d+ej1e2 d,ej1e2 d-ej1e2 d.ej1e* d/ej1e* d0ej1e* d1ej1e* d2ej1e* d3ej1e* d4ej1e3 d5ej1e3 d6ej1e3 dUej1e3 dVej1e3 f:dWdX„ƒZDej6dej/dSej/d!ej/d"ej/d#ej/d$ej/d%ej/d&ej/d'ej/d(ej/d)ej/d*ej/d+ej1e2 d,ej1e2 d-ej1e2 d.ej1e* d/ej1e* d0ej1e* d1ej1e* d2ej1e* d3ej1e* dTej1e* dej1e* d4ej1e3 d5ej1e3 d6ej1e3 dUej1e3 dVej1e3 d;ej7f:dYdZ„ƒZEej:d/e*d0e*d1e*d.e*d2e*d3e*d[e*d\e*dUe3dVe3d-e2d5e3dTe*de*fd]d^„ƒZFe					dfd$ej/d%ej/d&ej/d_ej/d`ej/d!ej/d"ej/d#ej/d'ej/d-ee2 dFeej/ daeej/ dUe3d5e3deej/ej/f fdbdc„ƒZGdS )ga3  
Copyright (c) 2025 by FlashInfer team.

Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at

  http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.
é    N)ÚOptionalÚTuple)Úcpasync)Úfrom_dlpacké   )Úflashinfer_apiTFc                 C   s   | S )N© )Úfuncr   r   úI/home/ubuntu/.local/lib/python3.10/site-packages/flashinfer/gdn_decode.pyr   ;   s   r   é   é€   é   é    é$   é   é   é   é   Ú
batch_sizeÚseq_lenÚreturnc                 C   s   dS )zÇSelect vec_size for MTP kernel.

    Always use vec_size=4 (32 threads per group = full warp, 4 groups per block).
    Full warp shuffle is more efficient and achieves >= 1.0x speedup vs Triton.
    r   r   ©r   r   r   r   r
   Úget_vec_size_mtpi   s   r   c                 C   s4   | dkrdS | dkrdS | dkrdS | dkrdS dS )zÆSelect optimal TILE_V for MTP kernel based on batch size and sequence length.

    With vec_size=4, num_groups=4, rows_per_group = tile_v / 4.
    Tuned via grid search for optimal performance.
    r   r   r   r   r   é@   r   r   r   r   r
   Úget_tile_v_mtpr   s   r   Útiled_copy_loadÚ	h0_sourceÚsmem_layout_stagedÚvec_sizeÚnum_v_tilesÚA_logÚaÚdt_biasÚqÚkÚvÚbÚoÚ
h0_indicesÚ
cu_seqlensÚsoftplus_betaÚsoftplus_thresholdÚscaleÚHVÚBÚTÚHÚKÚVÚuse_initial_stateÚuse_qk_l2normÚ	is_varlenc           a   
   C   s¤  t j ¡ \}}}|d }t j ¡ }t j |¡}t j ¡ \}}}|t } |t }!|t }"| | }#| | }$|$||  }%d}&t ||$ ¡}'t ||#|&|$f ¡}(t ||$ ¡})t ||#|&|$f ¡}*tj	 
¡ }+|+ tj|d¡},|+ tjt  |f¡d¡}-|+ tjt  |f¡d¡}.t  t j|fddtj¡}/t  t j|fddtj¡}0t  t j|fddtj¡}1t  t j|fddtj¡}2t  t j|fddtj¡}3t  t j|fddtj¡}4|| }5t j ¡  || ddf }6t  |dttf| ddf¡}7t  |6ttfd	¡}8|  |¡}9|!|" }:t td |"¡};t|:|:|; ƒD ]-}<|<|: t }=|8dd|<f }>|,dd|=f }?|9 |>¡}@|9 |?¡}At  | |@|A¡ t j ¡  qt  |ddd|f|#|&|%|f¡}Bt  |	ddd|f|#|&|%|f¡}Ct  |B|2¡ t  |C|3¡ t |¡D ]}Dt |2|D ¡|0|D< t |3|D ¡|/|D< qkt  |
ddd|f|#|&|$|f¡}Et  |E|4¡ t |¡D ]}Dt |4|D ¡|.|5|D < q›t j ¡  d
}Fd
}G|dkr|(|) }H||H }Id
}J|I|krìt j|Idd}Kt d|K ¡}Lt t j|Ldd¡}Mt t d¡| |M ¡}Jn|H}Jt j|'dd |J }Nddt j|* dd  }Gt j|Ndd}Ft j |Fd¡}Ft j |Gd¡}G|r†d
}Od
}Pt |¡D ]}D|O|0|D |0|D  7 }O|P|/|D |/|D  7 }Pq%dD ]}Q|Ot jj |O|Qddd7 }O|Pt jj |P|Qddd7 }Pq?t j!|Od dd}Rt j!|Pd dd}St |¡D ]}D|0|D |R |0|D< |/|D |S |/|D< qrt |¡D ]}D|0|D | |0|D< q‹|:|" }Tt|:|TƒD ]}<|<|: t }=t j "d¡ t j ¡  |<|; }U|U|Tk rç|U|: t }V|8dd|Uf }W|,dd|Vf }X|9 |W¡}@|9 |X¡}At  | |@|A¡ t j ¡  t dtd¡D ]¾}Y|d }Zd
}[t  |,d|df|Y|Z ||=f¡}\t  |\|1¡ t |¡D ]}D|1|D |F |1|D< |[|1|D |/|D  7 }[qdD ]}Q|[t jj |[|Qddd7 }[q(|.|<t |Y |Z  |[ }]|]|G }]d
}^t |¡D ]}D|1|D  |/|D |] 7  < |^|1|D |0|D  7 }^qOt  |7dd|dfd|Y|Z ||<f¡}_t  |1|_¡ dD ]}Q|^t jj |^|Qddd7 }^q‚|<t |Y |Z }`|dkr«|`|k r«t |^¡|-|`< qîq t j ¡  ||:t krÎ||Tt k rÐ|-| ||#|&|$|f< dS dS dS ©zCEach block uses pipeline to load one batch and vectorized writebackr   r   r   r   ©r   ©ÚstrideNr   )Nr   ç        T©Úfastmathç      ð?©r   r   r   r   r   éÿÿÿÿé   ©ÚoffsetÚmaskÚmask_and_clampçíµ ÷Æ°>r   )#ÚcuteÚarchÚ
thread_idxÚwarp_idxÚmake_warp_uniformÚ	block_idxÚNUM_BLOCKS_PER_STATEÚcutlassÚFloat32ÚutilsÚSmemAllocatorÚallocate_tensorÚBFloat16Úmake_layoutÚmake_rmem_tensorÚbarrierÚ
local_tileÚTILE_VÚTILE_KÚ	get_sliceÚminÚ
NUM_STAGESÚrangeÚpartition_SÚpartition_DÚcopyÚcp_async_commit_groupÚautovec_copyÚrange_constexprÚexpÚlogÚshuffle_syncÚshuffle_sync_bflyÚrsqrtÚcp_async_wait_group)ar   r   r   r   r   r    r!   r"   r#   r$   r%   r&   r'   r(   r)   r*   r+   r,   r-   r.   r/   r0   r1   r2   r3   r4   r5   ÚtidxÚ_Úlane_idrI   rK   Ú	batch_idxÚbatch_innerÚnum_v_tiles_per_blockÚi_nÚi_hvÚi_hÚi_tÚr_A_logÚr_aÚ	r_dt_biasÚr_bÚsmemÚsDataÚsOutputÚsVÚr_kÚr_qÚr_hÚr_q_bf16Úr_k_bf16Úr_v_bf16Úk_startÚ
gSrc_batchÚgDstÚgSrcÚthr_copy_loadÚstart_v_tilesÚprefetch_countÚv_tilesÚstageÚ	gSrc_tileÚsData_stageÚthr_gSrcÚ	thr_sDataÚq_tileÚk_tileÚiÚv_tileÚr_gÚr_betaÚxÚbeta_xÚ
softplus_xÚ
exp_beta_xÚ	log_inputÚ
log_resultÚ	r_g_valueÚsum_qÚsum_krB   Ú
inv_norm_qÚ
inv_norm_kÚend_v_tilesÚnext_v_tilesÚ
next_stageÚ	gSrc_nextÚ
sData_nextÚrowÚ
row_offsetÚsum_hkÚ
sData_tileÚv_newÚsum_hqÚ	gDst_tileÚo_idxr   r   r
   Ú*gdn_decode_kernel_small_batch_pretranspose„   s<   

ÿÿÿÿÿÿ

ÿ





ÿÿÿ




ÿÿÿÿ€Ø
.ÿr¬   c           \   
   C   sP  t j ¡ \}}}|d }t j ¡ }t j |¡}t j ¡ \}}}|| } || }!|!||  }"d}#t ||! ¡}$t || |#|!f ¡}%t ||! ¡}&t || |#|!f ¡}'tj 	¡ }(|( 
tj|d¡})|( 
tjt  |f¡d¡}*|( 
tjt  |f¡d¡}+t  t j|fddtj¡},t  t j|fddtj¡}-t  t j|fddtj¡}.t  t j|fddtj¡}/t  t j|fddtj¡}0t  t j|fddtj¡}1|| }2t j ¡  ||ddf }3t  |dttf|ddf¡}4t  |3ttfd	¡}5|  |¡}6t td |¡}7t|7ƒD ]*}8|8t }9|5dd|8f }:|)dd|9f };|6 |:¡}<|6 |;¡}=t  | |<|=¡ t j ¡  qût  |ddd|f| |#|"|f¡}>t  |	ddd|f| |#|"|f¡}?t  |>|/¡ t  |?|0¡ t |¡D ]}@t |/|@ ¡|-|@< t |0|@ ¡|,|@< qUt  |
ddd|f| |#|!|f¡}At  |A|1¡ t |¡D ]}@t |1|@ ¡|+|2|@ < q…t j ¡  d
}Bd
}C|dkrõ|%|& }D||D }Ed
}F|E|krÖt j|Edd}Gt d|G ¡}Ht t j|Hdd¡}It t d¡| |I ¡}Fn|D}Ft j|$dd |F }Jddt j|' dd  }Ct j|Jdd}Bt j |Bd¡}Bt j |Cd¡}C|rpd
}Kd
}Lt |¡D ]}@|K|-|@ |-|@  7 }K|L|,|@ |,|@  7 }LqdD ]}M|Kt jj|K|Mddd7 }K|Lt jj|L|Mddd7 }Lq)t j |Kd dd}Nt j |Ld dd}Ot |¡D ]}@|-|@ |N |-|@< |,|@ |O |,|@< q\t |¡D ]}@|-|@ | |-|@< qut|ƒD ]	}8|8t }9t j !d¡ t j ¡  |8|7 }P|P|k rÈ|Pt }Q|5dd|Pf }R|)dd|Qf }S|6 |R¡}<|6 |S¡}=t  | |<|=¡ t j ¡  t dtd¡D ]¾}T|d }Ud
}Vt  |)d|df|T|U ||9f¡}Wt  |W|.¡ t |¡D ]}@|.|@ |B |.|@< |V|.|@ |,|@  7 }VqñdD ]}M|Vt jj|V|Mddd7 }Vq	|+|8t |T |U  |V }X|X|C }Xd
}Yt |¡D ]}@|.|@  |,|@ |X 7  < |Y|.|@ |-|@  7 }Yq0t  |4dd|dfd|T|U ||8f¡}Zt  |.|Z¡ dD ]}M|Yt jj|Y|Mddd7 }Yqc|8t |T |U }[|dkrŒ|[|k rŒt |Y¡|*|[< qÏq…t j ¡  ||k r¦|*| || |#|!|f< dS dS r6   )"rF   rG   rH   rI   rJ   rK   rM   rN   rO   rP   rQ   rR   rS   rT   rU   rV   rW   rX   rY   rZ   r[   r\   r]   r^   r_   r`   ra   rb   rc   rd   re   rf   rg   rh   )\r   r   r   r   r   r    r!   r"   r#   r$   r%   r&   r'   r(   r)   r*   r+   r,   r-   r.   r/   r0   r1   r2   r3   r4   r5   ri   rj   rk   rI   rl   ro   rp   rq   rr   rs   rt   ru   rv   rw   rx   ry   rz   r{   r|   r}   r~   r   r€   r   r‚   rƒ   r„   r…   r‡   rˆ   r‰   rŠ   r‹   rŒ   r   rŽ   r   r   r‘   r’   r“   r”   r•   r–   r—   r˜   r™   rš   r›   rœ   rB   r   rž   r    r¡   r¢   r£   r¤   r¥   r¦   r§   r¨   r©   rª   r«   r   r   r
   Ú(gdn_decode_kernel_big_batch_pretranspose–  s2   

ÿÿÿÿÿÿ

ÿ





ÿÿÿ




ÿÿÿÿ€Ø
.
ÿr­   Ústreamc           #      C   s8  | j jd | j jd | j jd }}}tjtjtjjdtj	dd}tj
ddd	}t 
d
¡}t |||¡}t |t¡}|| | d d d  td } tj
tttftdtt fd	}!dt t t d|  d|  d }"t|| |!| ||||||||||	|
||||||||||||ƒj|t ddftddg|"|d dS )z>Launch original pipelined kernel for small batch pretranspose.r   r   r   ©Ú
cache_moder   ©Únum_bits_per_copy©r   r   ©r   r   r8   ©r   r   r   é   r   ©ÚgridÚblockrw   r®   N)ÚlayoutÚshaperF   Úmake_copy_atomr   Ú	CopyG2SOpÚLoadCacheModeÚGLOBALrM   rN   rS   Úmake_tiled_copy_tvÚceil_divrW   rX   r[   r¬   ÚlaunchrL   ÚNUM_THREADS©#r   r    r!   r"   r#   r$   r%   r&   r'   r(   r)   r*   r+   r,   r-   r.   r/   r0   r1   r2   r3   r4   r5   r®   r   Úv_dimÚk_dimÚ	copy_atomÚthread_layoutÚ
val_layoutr   r   r   r   Ú
smem_bytesr   r   r
   Ú.run_gdn_decode_kernel_small_batch_pretranspose¤  st   



ýýþ
ÿÿ$å
àrË   c           #      C   s4  | j jd | j jd | j jd }}}tjtjtjjdtj	dd}tj
ddd	}t 
d
¡}t |||¡}t |t¡}|| | d d d  td } tj
tttftdtt fd	}!dt t t d|  d|  d }"t|| |!| ||||||||||	|
||||||||||||ƒj|ddftddg|"|d d S )Nr   r   r   r¯   r   r±   r³   r´   r8   rµ   r   r¶   r   r·   )rº   r»   rF   r¼   r   r½   r¾   r¿   rM   rN   rS   rÀ   rÁ   rW   rX   r[   r­   rÂ   rÃ   rÄ   r   r   r
   Ú,run_gdn_decode_kernel_big_batch_pretranspose  st   



ýýþ
ÿÿ$å
àrÌ   Údtypec	           	      C   ó   i S )zECache compiled kernel for given configuration (pretranspose version).r   ©	r.   r/   r0   r-   r1   r2   rÍ   r,   r4   r   r   r
   Ú_get_compiled_decode_kernel~  ó   rÐ   c	           	      C   rÎ   )zECache compiled kernel for given configuration (nontranspose version).r   rÏ   r   r   r
   Ú(_get_compiled_decode_kernel_nontranspose  rÑ   rÒ   ÚstateÚoutputc           '      C   sf  | j \}}}}|dksJ d|› ƒ‚|j \}}}}|j ||||fks6J d|› d|› d|› d|› d|j › 
ƒ‚|dksAJ d	|› ƒ‚|dksLJ d
|› ƒ‚|t dks\J dt› d|› ƒ‚| jtjtjfv smJ d| j› ƒ‚|jtjks{J d|j› ƒ‚|jtjks‰J d|j› ƒ‚|du r‘|d }|	du}|rš|	jn| j}|	du r¯tj||||ftj| jd}	| 	|| ||¡}||||||| j||
f	}t
|Ž }d|vsÔ|d j| jkrîtj|tj| jd|d< tj|d tj| jd|d< |d }|d }d|vrvt tj ¡ j¡}t|dd}t|dd}t|dd}t|dd}t| dd}t|dd}t|dd} t|dd}!t|	dd}"t|dd}#t|dd}$|dkrNt}%nt}%tj|%||||||| |!|"|#|$fdd|||||||d|
d|ddœŽ}&|&|d< n|d }&t tj ¡ j¡}|d ||||| ||||	|||ƒ | ¡ s¤| | 	||||¡¡ |	j|kr¯|	 |¡}	|	|fS ) a`  Gated Delta Rule Decode kernel for single-token generation.

    This implements the decode phase of gated delta rule linear attention,
    processing one token at a time and updating the recurrent state.

    Args:
        q (torch.Tensor):
            Current query of shape ``[B, 1, H, K]``. Must be float16/bfloat16.
        k (torch.Tensor):
            Current key of shape ``[B, 1, H, K]``. Must be float16/bfloat16.
        v (torch.Tensor):
            Current value of shape ``[B, 1, HV, V]``. Must be float16/bfloat16.
        state (torch.Tensor):
            Current state of shape ``[B, HV, V, K]`` (v-major layout).
            Must be float32. Will be updated in-place.
        A_log (torch.Tensor):
            Log decay parameter of shape ``[HV]``. Must be float32.
        a (torch.Tensor):
            Input-dependent decay of shape ``[B, 1, HV]``. Must be float16/bfloat16.
        dt_bias (torch.Tensor):
            Decay bias of shape ``[HV]``. Must be bfloat16 or float32.
        b (torch.Tensor):
            Update gate (beta) input of shape ``[B, 1, HV]``. Must be float16/bfloat16.
        scale (Optional[float]):
            Scale factor for queries. If None, defaults to ``1 / sqrt(K)``.
        output (Optional[torch.Tensor]):
            Pre-allocated output tensor of shape ``[B, 1, HV, V]``.
            If None, will be allocated automatically.
        use_qk_l2norm (bool):
            Whether to apply L2 normalization to q and k. Default: ``True``.

    Returns:
        Tuple[torch.Tensor, torch.Tensor]:
            - output: Output tensor of shape ``[B, 1, HV, V]``
            - state: Updated state tensor of shape ``[B, HV, V, K]``

    Note:
        - Requires SM90 (Hopper) architecture
        - State is updated in-place
        - K and V must be multiples of 4 for vectorized loads
        - State layout is v-major: [B, HV, V, K]
    r   ú Decode only supports T=1, got T=úExpected state shape [B=ú, HV=ú, V=ú, K=ú], got r   úK must be at least 128, got K=úV must be at least 128, got V=r   úV must be divisible by ú( to prevent out-of-bounds access, got V=ú q must be float16/bfloat16, got ústate must be float32, got úA_log must be float32, got Nç      à¿©rÍ   Údevicer(   r)   Úcompiledr   ©Úassumed_alignr   r=   ç      4@TFú--enable-tvm-ffi)r*   r+   r,   r-   r.   r/   r0   r1   r2   r3   r4   r5   r®   Úoptions)r»   rW   rÍ   ÚtorchÚfloat16Úbfloat16Úfloat32Úzerosrä   ÚreshaperÐ   Úint32ÚcudaÚCUstreamÚcurrent_streamÚcuda_streamr   rË   rÌ   rF   ÚcompileÚis_contiguousÚcopy_Úto)'r#   r$   r%   rÓ   r    r!   r"   r&   r,   rÔ   r4   r.   r/   r0   r1   rj   r-   r2   Úoutput_providedÚtarget_dtyper   Ú	cache_keyÚcacher(   r)   r®   Úh0_source_tensorÚA_log_tensorÚa_tensorÚdt_bias_tensorÚq_tensorÚk_tensorÚv_tensorÚb_tensorÚo_tensorÚh0_indices_tensorÚcu_seqlens_tensorÚrun_funcrå   r   r   r
   Ú$gated_delta_rule_decode_pretranspose   s¬   9"ÿÿ
ÿ

ôæ
ÿ

r
  c           i   	   C   sž  t j ¡ \}}}|d }t j ¡ }t j |¡}t j ¡ \}}}d}t| }d| }t| }|t }|t }|t }|| }|| } || }!|!||  }"||  }#|#dkrË|| }$|| }%|| }&|&|% }'t	j
 ¡ }(|( t	j|d¡})t jtfdd}*|( t	j|*d¡}+t jtfdd},t jtfdd}-|( t	j|,d¡}.|( t	j|-d¡}/|tk r¿t	 || d|"|f ¡|.|< t	 || d|"|f ¡|/|< |#| |! }0||0ddf }1t  |1ttfd¡}2|  |¡}3t	 td	 |¡}4t|4ƒD ].}5||5 }6|5t }7|2dd|6f }8|)dd|7f }9|3 |8¡}:|3 |9¡};t  | |:|;¡ t j ¡  qæt	 |	|! ¡}<t	 |
|! ¡}=t	 || d|!f ¡}>t	 || d|!f ¡}?d
}@d
}A|dkr“|>|= }B||B }Cd
}D|C|krtt j|Cdd}Et	 d|E ¡}Ft	 t j|Fdd¡}Gt	 t	 d¡| |G ¡}Dn|B}Dt j|<dd |D }Hddt j|? dd  }At j|Hdd}@t j |@d¡}@t j |Ad¡}At j ¡  |rsd
}Id
}J|tk rÂ|/| }K|.| }L|K|K }I|L|L }JdD ]}M|It jj|I|Mddd7 }I|Jt jj|J|Mddd7 }JqÄ|dkrï|I|+|< |J|+|d < t j ¡  d
}Nd
}O|dkrId
}Pd
}Q||k r|+| }P|+|d  }QdD ]}M|Pt jj|P|Mddd7 }P|Qt jj|Q|Mddd7 }Qq|dkrIt j|Pd dd|+d< t j|Qd dd|+d	< t j ¡  |+d }N|+d	 }O|tk rm|.| |O |.|< |/| | |N |/|< t j ¡  n|tk r€|/| | |/|< t j ¡  t|ƒD ]B}5||5 }6|5t }7t j d¡ t j ¡  |5|4 }R|R|k rÔ||R }S|Rt }T|2dd|Sf }U|)dd|Tf }V|3 |U¡}:|3 |V¡};t  | |:|;¡ t j ¡  |6t |' }Wt	 || d|!|Wf ¡}Xd
}Yt|ddD ]}Z|Z| }[|[|$ }\|)|\|'|7f |@ }]|.|\ }^|Y|]|^ 7 }YqídD ]}M|Yt jj|Y|M| ddd7 }Yq|X|Y |A }_t j |_|%¡}_d
}`t|ddD ]/}Z|Z| }[|[|$ }\|)|\|'|7f |@ }a|.|\ }^|/|\ }b|a|^|_  }c|c|)|\|'|7f< |`|c|b 7 }`q5dD ]}M|`t jj|`|M| ddd7 }`qg|$dkr|6t |' }dt	 |`¡|| d|!|df< t j ¡  t	  |¡D ]*}Z||Zd  }e|et }f|et }g|ftk rÂ|)|f|g|7f }]|6t |g }h|]||0|f|hf< q™t j ¡  q‰dS dS )zDSmall batch kernel for (N, 1, ...) format with K-major state layout.r   r   r   r   r7   r8   N©r   Nr   r:   Tr;   r=   r>   r?   r@   rA   )r   r   rE   r   ©Úunroll©r   r   r   )!rF   rG   rH   rI   rJ   rK   ÚTILE_V_SMALL_NTÚ	TILE_K_NTÚNUM_BLOCKS_PER_STATE_SMALL_NTrM   rO   rP   rQ   rN   rS   rV   rY   rZ   ÚNUM_STAGES_NTr\   r]   r^   r_   r`   rc   rd   re   rU   rf   rg   rh   rR   rb   )ir   r   r   r   r#   r$   r%   r!   r&   r    r"   r'   r(   r*   r+   r,   r0   r-   r4   ri   rj   Úin_warp_tidrI   rK   ÚNUM_WARPS_SMALLÚV_PER_WARP_SMALLÚROWS_PER_ITER_SMALLÚNUM_K_ITERS_SMALLrl   rm   rn   Ústart_v_tilero   rp   rq   Úpool_idxÚk_localÚv_localÚv_baseÚv_idxrw   rx   Úsmem_o_layoutÚsmem_oÚsmem_k_layoutÚsmem_q_layoutÚsKÚsQÚflat_idxr‚   r„   r…   r‡   Úv_tile_offsetr‘   r‰   rŠ   r‹   rŒ   r   rs   ru   rt   rv   r’   r“   r”   r•   r–   r—   r˜   r™   rš   Úsum_q_partialÚsum_k_partialÚq_valÚk_valrB   r   rž   Úlocal_sum_qÚlocal_sum_kÚnext_v_tile_offsetÚnext_v_tiler¡   r¢   r£   Úv_globalÚr_vr¦   Úk_iterÚk_baseÚk_idxÚh_valÚr_k_valr¨   r©   Úh_oldÚr_q_valÚh_newÚv_global_outÚflat_tidÚk_writeÚv_writeÚv_global_writer   r   r
   Ú*gdn_decode_kernel_small_batch_nontransposeY  sr  







ÿ

ÿÿ



ÿÿ









üü


€ ½wr=  c           _   	   C   sJ  t j ¡ \}}}|d }t j ¡ }t j |¡}t j ¡ \}}}|| }|| }|||  }|| }|dkr¡|t }|t }|t }|| }tj 	¡ } |  
tj|d¡}!t jtfdd}"|  
tj|"d¡}#t jtfdd}$t jtfdd}%|  
tj|$d¡}&|  
tj|%d¡}'|tk r¡t ||d||f ¡|&|< t ||d||f ¡|'|< || | }(||(ddf })t  |)ttfd¡}*|  |¡}+t td |¡},t|,ƒD ]*}-|-t }.|*dd|-f }/|!dd|.f }0|+ |/¡}1|+ |0¡}2t  | |1|2¡ t j ¡  qÈt |	| ¡}3t |
| ¡}4t ||d|f ¡}5t ||d|f ¡}6d	}7d	}8|dkrq|5|4 }9||9 }:d	};|:|krRt j|:d
d}<t d|< ¡}=t t j|=d
d¡}>t t d¡| |> ¡};n|9};t j|3d
d |; }?ddt j|6 d
d  }8t j|?d
d}7t j |7d¡}7t j |8d¡}8t j ¡  |rQd	}@d	}A|tk r |'| }B|&| }C|B|B }@|C|C }AdD ]}D|@t jj|@|Dddd7 }@|At jj|A|Dddd7 }Aq¢|dkrÍ|@|#|< |A|#|d < t j ¡  d	}Ed	}F|dkr'd	}Gd	}H|tk rî|#| }G|#|d  }HdD ]}D|Gt jj|G|Dddd7 }G|Ht jj|H|Dddd7 }Hqð|dkr't j|Gd d
d|#d< t j|Hd d
d|#d< t j ¡  |#d }E|#d }F|tk rK|&| |F |&|< |'| | |E |'|< t j ¡  n|tk r^|'| | |'|< t j ¡  t|ƒD ]:}-|-t }.t j d¡ t j ¡  |-|, }I|I|k rª|It }J|*dd|If }K|!dd|Jf }L|+ |K¡}1|+ |L¡}2t  | |1|2¡ t j ¡  |-t | }Mt ||d||Mf ¡}Nd	}Ott ddD ]}P|Pt! }Q|Q| }R|!|R||.f |7 }S|&|R }T|O|S|T 7 }OqÃdD ]}D|Ot jj|O|Dt ddd7 }Oqä|N|O |8 }Ut j |U|¡}Ud	}Vtt ddD ]/}P|Pt! }Q|Q| }R|!|R||.f |7 }W|&|R }T|'|R }X|W|T|U  }Y|Y|!|R||.f< |V|Y|X 7 }VqdD ]}D|Vt jj|V|Dt ddd7 }Vq=|dkre|-t | }Zt "|V¡||d||Zf< t j ¡  t #t ¡D ]*}P||Pd  }[|[t }\|[t }]|\tk r˜|!|\|]|.f }S|-t |] }^|S||(|\|^f< qot j ¡  qgdS dS )zDLarge batch kernel for (N, 1, ...) format with K-major state layout.r   r   r   r7   r8   Nr  r   r:   Tr;   r=   r>   r?   r@   rA   r   r  rE   r  r   )$rF   rG   rH   rI   rJ   rK   ÚV_PER_WARP_NTrM   rO   rP   rQ   rN   rS   Ú	TILE_V_NTr  rV   rY   rZ   r  r\   r]   r^   r_   r`   rc   rd   re   rU   rf   ÚNUM_WARPS_LARGE_NTrg   rh   ÚNUM_K_ITERS_NTÚROWS_PER_ITER_NTrR   rb   )_r   r   r   r   r#   r$   r%   r!   r&   r    r"   r'   r(   r*   r+   r,   r0   r-   r4   ri   rj   r  rI   rl   ro   rp   rq   r  r  r  r  r  rw   rx   r  r  r   r!  r"  r#  r$  r‚   r„   r…   r‡   r‘   r‰   rŠ   r‹   rŒ   r   rs   ru   rt   rv   r’   r“   r”   r•   r–   r—   r˜   r™   rš   r&  r'  r(  r)  rB   r   rž   r*  r+  r-  r¡   r¢   r£   r.  r/  r¦   r0  r1  r2  r3  r4  r¨   r©   r5  r6  r7  r8  r9  r:  r;  r<  r   r   r
   Ú(gdn_decode_kernel_big_batch_nontransposeK  sP  







ÿ

ÿÿ



ÿÿ









ÿÿ


€ ÆvrC  c           "      C   s  |j j\}}}|	j jd  |}tjtjtjjdtj	dd}t 
|t¡}tjtttftdtt fd}tjddd}t d	¡}t |||¡} d
t t t d
t  d
t d  d }!t| |||||||||||
|	||||||ƒj|t ddftddg|!|d d S )Nr   r¯   r   r±   r   r8   )r   r   )r   r   rµ   r   r   r   r·   )rº   r»   rF   r¼   r   r½   r¾   r¿   rM   rN   rÁ   r  rS   r  r  ÚTILE_V_SMALL_PADDED_NTrÀ   r=  rÂ   r  ÚNUM_THREADS_NT)"r)   r#   r$   r%   r!   r&   r    r"   r   r(   r'   r*   r+   r,   r.   r/   r0   r-   r1   r2   r3   r4   r®   Úbatch_hv_dimrÆ   rÅ   r   rÇ   Únum_v_tiles_smallÚsmem_layout_smallÚthread_layout_smallÚval_layout_smallÚtiled_copy_load_smallÚsmem_bytes_smallr   r   r
   Ú.run_gdn_decode_kernel_small_batch_nontranspose)  sj   ýþ
ÿÿ
þýÿí
èrM  c           "      C   sþ   |j j\}}}|	j jd  |}tjtjtjjdtj	dd}t 
|t¡}tjtttftdtt fd}tjddd}t d	¡}t |||¡} d
t t t d
t  d
t d  d }!t| |||||||||||
|	||||||ƒj|ddftddg|!|d d S )Nr   r¯   r   r±   r   r8   )r   r   )r   r   rµ   r   r   r   r·   )rº   r»   rF   r¼   r   r½   r¾   r¿   rM   rN   rÁ   r?  rS   r  r  ÚTILE_V_PADDED_NTrÀ   rC  rÂ   ÚNUM_THREADS_LARGE_NT)"r)   r#   r$   r%   r!   r&   r    r"   r   r(   r'   r*   r+   r,   r.   r/   r0   r-   r1   r2   r3   r4   r®   rF  rÆ   rÅ   r   rÇ   r   Úbase_smem_layoutrÈ   rÉ   r   rÊ   r   r   r
   Ú,run_gdn_decode_kernel_big_batch_nontransposez  sf   ýþ
ÿ
þýÿí
èrQ  c           )      C   sh  | j \}}}}|dksJ d|› ƒ‚|j \}}}}|j ||||fks6J d|› d|› d|› d|› d|j › 
ƒ‚|dksAJ d	|› ƒ‚|dksLJ d
|› ƒ‚|t dks\J dt› d|› ƒ‚| jtjtjfv smJ d| j› ƒ‚|jtjks{J d|j› ƒ‚|jtjks‰J d|j› ƒ‚|du r‘|d }|	du}|rš|	jn| j}|	du r¯tj||||ftj| jd}	| 	¡ }| 
|| ||¡}||||||| j||
f	}t|Ž }d|vsØ|d j| jkròtj|tj| jd|d< tj|d tj| jd|d< |d }|d }d|vr{t tj ¡ j¡}|tk }|rt}nt}t|dd}t|dd}t|dd}t|dd} t| dd}!t|dd}"t|dd}#t|dd}$t|	dd}%t|dd}&t|dd}'tj||'|!|"|#||$|| ||&|%fdd|||||||d|
|ddœŽ}(|(|d< n|d }(t tj ¡ j¡}|(|| |||||||||	|ƒ | ¡ | ¡ kr¥| |¡ |	j|kr°|	 |¡}	|	|fS )aö  Gated Delta Rule Decode kernel (K-major layout, no transpose needed).

    This implements the decode phase of gated delta rule linear attention,
    processing one token at a time and updating the recurrent state.
    This version uses K-major state layout [B, HV, K, V] which is more natural
    and doesn't require transposition.

    Args:
        q (torch.Tensor):
            Current query of shape ``[B, 1, H, K]``. Must be float16/bfloat16.
        k (torch.Tensor):
            Current key of shape ``[B, 1, H, K]``. Must be float16/bfloat16.
        v (torch.Tensor):
            Current value of shape ``[B, 1, HV, V]``. Must be float16/bfloat16.
        state (torch.Tensor):
            Current state of shape ``[B, HV, K, V]`` (k-major layout).
            Must be float32. Will be updated in-place.
        A_log (torch.Tensor):
            Log decay parameter of shape ``[HV]``. Must be float32.
        a (torch.Tensor):
            Input-dependent decay of shape ``[B, 1, HV]``. Must be float16/bfloat16.
        dt_bias (torch.Tensor):
            Decay bias of shape ``[HV]``. Must be bfloat16 or float32.
        b (torch.Tensor):
            Update gate (beta) input of shape ``[B, 1, HV]``. Must be float16/bfloat16.
        scale (Optional[float]):
            Scale factor for queries. If None, defaults to ``1 / sqrt(K)``.
        output (Optional[torch.Tensor]):
            Pre-allocated output tensor of shape ``[B, 1, HV, V]``.
            If None, will be allocated automatically.
        use_qk_l2norm (bool):
            Whether to apply L2 normalization to q and k. Default: ``True``.

    Returns:
        Tuple[torch.Tensor, torch.Tensor]:
            - output: Output tensor of shape ``[B, 1, HV, V]``
            - state: Updated state tensor of shape ``[B, HV, K, V]``

    Note:
        - Requires SM90 (Hopper) architecture
        - State is updated in-place
        - K and V must be multiples of 4 for vectorized loads
        - State layout is k-major: [B, HV, K, V] (no transpose needed)
    r   rÕ   rÖ   r×   rÙ   rØ   rÚ   r   rÛ   rÜ   r   rÝ   rÞ   rß   rà   rá   Nrâ   rã   r(   r)   rå   r   ræ   r=   rè   Tré   )r*   r+   r,   r.   r/   r0   r-   r1   r2   r3   r4   r®   rê   )r»   r?  rÍ   rë   rì   rí   rî   rï   rä   Ú
contiguousÚviewrÒ   Úarangerñ   rò   ró   rô   rõ   ÚSMALL_BATCH_THRESHOLD_NTrM  rQ  r   rF   rö   Údata_ptrrø   rù   ))r#   r$   r%   rÓ   r    r!   r"   r&   r,   rÔ   r4   r.   r/   r0   r1   rj   r-   r2   rú   rû   Ústate_contiguousr   rü   rý   r(   r)   r®   Úuse_small_batchr	  rþ   rÿ   r   r  r  r  r  r  r  r  r  rå   r   r   r
   Úgated_delta_rule_decodeÎ  sÄ   ;"ÿÿ
ÿ
ôç
ô

rY  Úintermediate_statesÚtile_vÚdisable_state_updateÚcache_intermediate_statesc           ]   
   C   sT  t j ¡ \}}}|d }t j ¡ } t j | ¡} || }!d|! }"d|" }#||! }$||! }%| |" |% }&t j ¡ \}'}}|'| }(|'| })|)| }*|)| }+|*||  },||+ }-t ||* ¡}.t ||* ¡}/tj 	¡ }0|0 
tjt j||f|d dfdd¡}1|0 
tjt j||f|d dfdd¡}2|0 
tjt  |f¡d¡}3|0 
tjt  |f¡d¡}4t  t j|fddtj¡}5t  t j|fddtj¡}6t  t j|fddtj¡}7t  t j|fddtj¡}8t  t j|fddtj¡}9|-dkr¦|$| }:t |¡D ]o};t  |ddd|f|+|;|,|$f¡}<t  |	ddd|f|+|;|,|$f¡}=t  |<|8¡ t  |=|9¡ t |¡D ]}>t |8|> ¡|5|>< t |9|> ¡|6|>< q%t |¡r®d	}?d	}@t |¡D ]}>|?|5|> |5|>  7 }?|@|6|> |6|>  7 }@qJd
D ]}A|?t jj|?|Addd7 }?|@t jj|@|Addd7 }@qdt j|?d dd| }Bt j|@d dd}Ct |¡D ]}>|5|> |B |5|>< |6|> |C |6|>< q™nt |¡D ]}>|5|> | |5|>< q³||!k rát |¡D ]}>|5|> |1|;|:|> f< |6|> |2|;|:|> f< qÉt ||+|;|*f ¡}Dt ||+|;|*f ¡}E|D|/ }F||F }Gt j|Gdd}Ht d¡| t jt d¡|H dd }I|G|kr!t d¡nt d	¡}J|J|I t d¡|J |F  }Kt j|.dd |K }Lt d¡t d¡t j|E dd  }Mt j|Ldd}N|dkrc|N|3|;< |M|4|;< qót j ¡  ||# }Ot |O¡D ]4}P|(| |&|O  |P }Q|Q|k r¤|-| |* }Rt  | dd|f|R|Q|$f¡}St  |S|7¡ t |¡D ]ç};t  |1d|f|;|$f¡}Tt  |2d|f|;|$f¡}Ut  |T|5¡ t  |U|6¡ |3|; }N|4|; }Mt |¡D ]}>|7|> |N |7|>< qÓd	}Vt |¡D ]}>|V|7|> |6|>  7 }Vqæd
D ]}A|Vt jj|V|Addd7 }Vqöt |
|+|;|*|Qf ¡}W|W|V |M }Xt |¡D ]}>|7|>  |6|> |X 7  < qt |¡rQ|+| | |;|  |* }Yt  |dd|f|Y|Q|$f¡}Zt  |7|Z¡ d	}[t |¡D ]}>|[|7|> |5|>  7 }[qXd
D ]}A|[t jj|[|Addd7 }[qh|$dkrˆt |[¡||+|;|*|Qf< q¢t | ¡r¤t  | dd|f|R|Q|$f¡}\t  |7|\¡ qrdS dS )av  
    Parallel MTP kernel - each block handles one [TILE_V, TILE_K] tile.

    Grid: (B * HV * num_v_tiles, 1, 1)
    Each block:
    - Loads its v_tile of state into registers
    - Processes all T time steps with state in registers
    - Writes output and optionally updates state

    This matches Triton's parallelization strategy for better small-batch performance.
    r   r   r   r   r8   r   r7   r   r:   r>   r?   r@   rA   rE   Tr;   r=   N)rF   rG   rH   rI   rJ   rK   rM   rN   rO   rP   rQ   rS   rT   rR   rb   rV   ra   Ú
const_exprrf   rg   rc   rd   rU   )]r   rZ  r   r   r[  r    r!   r"   r#   r$   r%   r&   r'   r(   r)   r*   r+   r,   r-   r.   r/   r0   r1   r2   r3   r4   r5   r\  r]  ri   rj   rk   rI   Úthreads_per_groupÚgroups_per_warpÚ
num_groupsÚlane_in_groupÚgroup_in_warpÚ	group_idxrl   Úi_vÚtmprp   ro   rq   Ú	cache_idxrs   ru   rw   r#  r"  ÚsGÚsBetar|   r{   r}   r~   r   r   rr   rŽ   r   r   r›   rœ   rB   Úinv_norm_q_scaledrž   rt   rv   r”   r•   r—   Úsoftplus_valÚuse_softplusr–   rš   r“   r’   Úrows_per_groupÚrow_in_groupr  Úflat_state_idxÚh_tileÚsQ_tileÚsK_tiler¦   r/  r¨   r$  Ú
inter_tiler©   Ú
h_tile_outr   r   r
   Úgdn_verify_kernel_mtpš  sH  +

ÿÿÿÿÿÿÿ
ÿÿÿÿþ
ÿ

ÿýÿÿ
€

ÿÿýÿ
€ý€ Ö\ru  c           #      C   sÒ   | j jd | j jd | j jd }}}t ||¡} || |  }!d| |d  d| |d   d|  d|  d }"t| ||| |||||||||	|
|||||||||||||||ƒj|!ddftddg|"|d d S )Nr   r   r   r   r   r   r·   )rº   r»   rF   rÁ   ru  rÂ   ÚNUM_THREADS_MTP)#r   rZ  r    r!   r"   r#   r$   r%   r&   r'   r(   r)   r*   r+   r,   r-   r.   r/   r0   r1   r2   r[  r   r3   r4   r5   r\  r]  r®   rj   rÅ   rÆ   r   Ú	grid_sizerÊ   r   r   r
   Úrun_gdn_verify_kernel_mtp°  sj   
!


ýÿþýüÿã
Þrx  Ú	pool_sizeÚcache_stepsc                 C   rÎ   )z2Cache compiled MTP kernel for given configuration.r   )r.   r/   r0   r-   r1   r2   ry  rz  r\  r]  r,   r4   r[  r   r   r   r
   Ú_get_compiled_mtp_kernel
	  s   r{  Úinitial_stateÚinitial_state_indicesÚintermediate_states_bufferc           0      C   s,  | j \}}}}|j \}}}}|j d }t||ƒ}t||ƒ}|j ||||fks:J d|› d|› d|› d|› d|j › 
ƒ‚|dksEJ d|› ƒ‚|dksPJ d	|› ƒ‚|| dks`J d
|› d|› ƒ‚| jtjtjfv sqJ d| j› ƒ‚|jtjksJ d|j› ƒ‚|jtjksJ d|j› ƒ‚|	du r•|d }	|
du}|rž|
jn| j}|
du r³tj||||ftj| j	d}
| 
tj¡ || ||¡}|du}|rñ|j d }|j d }||ksßJ d|› d|› dƒ‚| 
tj¡ || | ||¡ ¡ }n|}tjdddtj| j	d}|||||||||||	|||f}t|Ž } d| vs!| d j	| j	kr/tj|d tj| j	d| d< | d }!d| vr×t tj ¡ j¡}"t|dd}#t|dd}$t|dd}%t|dd}&t|dd}'t| dd}(t|dd})t|dd}*t|dd}+t|
dd},t|dd}-t|!dd}.tjt|#|$|%|&|'|(|)|*|+|,|-|.fi dd“dd“d|	“d|“d |“d!|“d"|“d#|“d$|“d%|“d&|“d'd(“d)|“d*d+“d,|“d-|“d.|"“d/d0“Ž}/|/| d< n| d }/t tj ¡ j¡}"|/|||||| ||||
||!|"ƒ |s| ¡ s| | ||||¡¡ |
j|kr|
 
|¡}
|
|fS )1am  
    Gated Delta Rule MTP Kernel (Multiple Token Processing).

    This function processes multiple tokens (T > 1) in sequence, typically used for
    speculative decoding verification. It supports intermediate state caching for
    potential rollback scenarios.

    Args:
        q (torch.Tensor):
            Query tensor of shape ``[B, T, H, K]``.
        k (torch.Tensor):
            Key tensor of shape ``[B, T, H, K]``.
        v (torch.Tensor):
            Value tensor of shape ``[B, T, HV, V]``.
        initial_state (torch.Tensor):
            Initial state tensor of shape ``[pool_size, HV, V, K]`` (K-last layout).
        initial_state_indices (torch.Tensor):
            Indices mapping each batch to its initial state, shape ``[B]``.
        A_log (torch.Tensor):
            Log decay parameter of shape ``[HV]``.
        a (torch.Tensor):
            Input-dependent decay of shape ``[B, T, HV]``.
        dt_bias (torch.Tensor):
            Decay bias of shape ``[HV]``.
        b (torch.Tensor):
            Update gate input of shape ``[B, T, HV]``.
        scale (Optional[float]):
            Scaling factor for queries. If None, uses ``1/sqrt(K)``.
        output (Optional[torch.Tensor]):
            Pre-allocated output tensor of shape ``[B, T, HV, V]``.
        intermediate_states_buffer (Optional[torch.Tensor]):
            Buffer for caching intermediate states, shape ``[pool_size, T, HV, V, K]``.
            If None, intermediate states are not cached.
        disable_state_update (bool):
            If True, the initial state is not updated. Default: ``True``.
        use_qk_l2norm (bool):
            Whether to apply L2 normalization to q and k. Default: ``True``.

    Returns:
        Tuple[torch.Tensor, torch.Tensor]:
            - output: Output tensor of shape ``[B, T, HV, V]``
            - initial_state: Updated state tensor (unchanged if disable_state_update=True)

    Note:
        - Requires SM90 (Hopper) architecture
        - Supports T > 1 (multiple token processing)
        - State layout is K-last: [pool_size, HV, V, K]
        - Optimized for speculative decoding verification scenarios
    r   z(Expected initial_state shape [pool_size=r×   rØ   rÙ   rÚ   r   rÛ   rÜ   rÝ   rÞ   rß   z#initial_state must be float32, got rá   Nrâ   rã   r   z9intermediate_states_buffer second dimension (cache_steps=z) must be at least T=z" to prevent out-of-bounds indexingr)   rå   r   ræ   r*   r=   r+   rè   r,   r-   r.   r/   r0   r1   r2   r[  r   r3   Tr4   r5   Fr\  r]  r®   rê   ré   )r»   r   r   rÍ   rë   rì   rí   rî   rï   rä   rù   rð   rR  r{  rñ   rò   ró   rô   rõ   r   rF   rö   rx  r÷   rø   )0r#   r$   r%   r|  r}  r    r!   r"   r&   r,   rÔ   r~  r\  r4   r.   r/   r0   r1   rj   r-   r2   ry  r[  r   rú   rû   r   r]  Úbuffer_sizerz  rZ  rü   rý   r)   r®   rþ   Úintermediate_states_tensorrÿ   r   r  r  r  r  r  r  r  r  rå   r   r   r
   Úgated_delta_rule_mtp	  s&  C


"ÿÿ
ÿ
ÿ


ÿ
ýò
óòñðïîíìëêéèçæåäãâá
!ó
r  r7   )NNT)NNNTT)HÚ__doc__Ú	functoolsÚtypingr   r   rë   rM   Úcutlass.cuterF   Úcutlass.cute.nvgpur   Úcutlass.cute.runtimer   Úcuda.bindings.driverÚbindingsÚdriverrò   Úapi_loggingr   Ú_FLASHINFER_AVAILABLEÚImportErrorrW   rX   r[   rÃ   rL   r  r?  rN  r  rD  r  rE  r  rO  r@  r>  rB  rA  rU  Ú
TILE_K_MTPrv  Úintr   r   ÚkernelÚ	TiledCopyÚTensorÚLayoutÚ	ConstexprÚfloatÚboolr¬   r­   Újitró   rË   rÌ   rý   rÍ   rÐ   rÒ   r
  r=  rC  rM  rQ  rY  ru  rx  r{  r  r   r   r   r
   Ú<module>   s¦   ü	ÿþýüûúùø	÷
öõôóòñðïîíìëêéèçæå  ÿþýüûúùø	÷
öõôóòñðïîíìëêéèçæå  ÿþýüûúùø	÷
öõôóòñðïîíìëêéègÿþýüûúùø	÷
öõôóòñðïîíìëêéèqÿþýüûúùø	÷ÿþýüûúùø	÷
õÿþýüûúùø	÷
öõô 9ÿþýüûúùø	÷
öõôóòñðïîí rÿþýüûúùø	÷
öõôóòñðïîí ^ÿþýüûúùø	÷
öõôóòñðïîíìëêéPÿþýüûúùø	÷
öõôóòñðïîíìëêéS
õÿþýüûúùø	÷
öõô Lÿþýüûúùø	÷
öõôóòñðïîíìëêéèçæåäã  ÿþýüûúùø	÷
öõôóòñðïîíìëêéèçæåäãYÿþýüûúùø	÷
öõôóòòÿþýüûúùø	÷
öõôóòñ