o ÔÙ¾ií ã@sJddlmZddlZddlmZddlmZeddGdd„deƒƒZdS) é)Ú dataclassN)ÚForwardMetadata)ÚForwardBatchT)Úkw_onlyc@sŒeZdZUeed<eed<eed<eed<ejed<ejed<edejdejd ed ejddf dd „ƒZe dejdejde ddfdd„ƒZdS)ÚBailingLinearMetadataÚnum_prefillsÚnum_prefill_tokensÚnum_decodesÚ batch_sizeÚhas_initial_statesÚ q_lengthsÚquery_start_locÚmamba_cache_indicesÚbsÚseq_lensÚreturnc Cs(t||||jdddt |¡| ¡dS)zTThis path is run during CUDA graph capture, i.e. decode only, so `num_prefills` is 0r)r r rr rrrr)rÚshapeÚtorchÚ ones_likeÚdiff©r rrr©rúf/home/ubuntu/.local/lib/python3.10/site-packages/sglang/srt/layers/attention/linear/linear_metadata.pyÚprepare_decodesøz$BailingLinearMetadata.prepare_decodeÚ forward_batchc Cs†|jdur|j|||j|jdSt|jƒ}|j}t|jƒ|}|j}|dus(J‚|dk}|d|d…}t|j||||||| ¡dS)zEThis path cannot run with CUDA graph, as it contains extend requests.Nrré)r r rrrr rr) Úextend_num_tokensrr rÚlenÚextend_seq_lensÚextend_prefix_lensrr) Úclsr rrrrr Úcontext_lens_tensorrrrrÚ prepare_mixed%s0 ü øz#BailingLinearMetadata.prepare_mixedN)Ú__name__Ú __module__Ú__qualname__ÚintÚ__annotations__rÚTensorÚstaticmethodrÚclassmethodrr"rrrrr s: ÿþýüûþýüûr)ÚdataclassesrrÚ1sglang.srt.layers.attention.mamba.mamba2_metadatarÚ,sglang.srt.model_executor.forward_batch_inforrrrrrÚs