o ºiž@ã#@s:UddlZddlmZmZmZddlmZddlZddlm Z edƒZ edƒZiZe ejjefed<ehd£ƒZd ed edeee efgee efffdd „Zeddƒ déN)ÚCallableÚOptionalÚTypeVar)Ú ParamSpec)Ú_dtype_mappingsÚ_PÚ_RÚONNX_ATEN_DECOMP_TABLE>éé ééÚop_typeÚ opset_versionÚreturncs,dtttfdtttff‡‡fdd„}|S)zDDecorator to register an ONNX operator with a custom implementation.ÚfuncrcsPdˆ›}tjjdˆ›d|›dd|ƒ}|ttttjjˆƒ|ƒ<| |¡|S)NÚopsetzonnx::Ú.©)Úmutates_args)ÚtorchÚlibraryÚ custom_opr ÚgetattrÚopsÚonnxÚ register_fake)rÚoverloadÚtorch_op©rrrúQ/home/ubuntu/veenaModal/venv/lib/python3.10/site-packages/torch/onnx/ops/_impl.pyÚ decorators ÿþÿ z_onnx_op..decorator)rrr)rrr!rrr Ú_onnx_ops( r"ÚRotaryEmbeddingéF)ÚinterleavedÚ num_headsÚrotary_embedding_dimÚxÚ cos_cacheÚ sin_cacheÚposition_idsr%r&r'cs|j‰tˆƒ}ˆd‰ˆd‰ˆdurWt ˆ ¡dk‡fdd„¡t ˆjdˆk‡‡fdd„¡t ˆjdˆk‡‡fd d„¡t ˆ ¡dkoNˆ ¡dk‡‡fd d„¡nt ˆ ¡dkodˆ ¡dk‡‡fdd„¡|d krwt |d¡}n$|dkr›t |dk‡fdd„¡ˆd}||} ˆˆ|| g} t || ¡}t t|jƒd kdd„¡|jd} |dkr³| }|dd…dd…dd…d|…f}|dd…dd…dd…|d…f}|d‰ˆduräˆˆ‰ˆˆ‰nˆ‰ˆ‰t ˆjdˆko÷ˆjdˆk‡‡‡fdd„¡t ˆjdˆkoˆjdˆk‡‡‡fdd„¡t ˆjdˆk‡‡fdd„¡t ˆjdˆk‡‡fdd„¡t ˆd¡‰t ˆd¡‰|rk|dd…dd…dd…ddd…f} |dd…dd…dd…ddd…f}n tj|ddd\} }ˆ| ˆ|}ˆ| ˆ|}|r¥t |d¡}t |d¡}tj ||fdd}t ||j¡}n tj ||fdd}tj ||fdd}|dkrÂt |ˆ¡St |d¡S)z_RotaryEmbedding-23 https://onnx.ai/onnx/operators/onnx__RotaryEmbedding.html#rotaryembedding-23réþÿÿÿNécsdˆj›S)Nz6position_ids must be 2D when provided. Received shape ©Úshaper)r+rr ÚFsz%rotary_embedding_23..csdˆ›dˆjd›S)Nz6position_ids first dim (batch) must match x.shape[0] (ú). Received rr.r)Ú batch_sizer+rr r0Jór csdˆ›dˆjd›S)Nz;position_ids second dim (sequence) must match x.shape[-2] (r1r r.r)r+Úsequence_lengthrr r0Nr3códˆj›dˆj›S)NzWcos_cache/sin_cache must be 2D when position_ids is provided. Received cos_cache shape ú, sin_cache shape r.r©r)r*rr r0Ró ÿÿécr5)Nz[cos_cache/sin_cache must be 3D when position_ids is not provided. Received cos_cache shape r6r.rr7rr r0Xr8é)rr-r r9cs dˆ›S)NzKnum_heads must be provided for 3D inputs. Received input tensor with shape rr)Úinput_shaperr r0es cSódS)Nzx should be a 4D tensor by nowrrrrr r0lócsdˆj›dˆ›dˆ›dS)Nzcos has shape ú but expected (batch=ú, seq=ú, ...)r.r)r2Úcosr4rr r0…ócsdˆj›dˆ›dˆ›dS)Nzsin has shape r>r?r@r.r)r2r4Úsinrr r0‰rBéÿÿÿÿcsdˆjd›dˆ›dS)NzLast dimension of cos cache (rDú') should match rotary_embedding_dim/2 (ú).r.r)rAÚrotary_embedding_dim_halfrr r0ócsdˆjd›dˆ›dS)NzLast dimension of sin cache (rDrErFr.r)rGrCrr r0‘rH©Údim) r/ÚlenrÚ_checkrJÚpermuteÚreshapeÚ unsqueezeÚchunkÚcat)r(r)r*r+r%r&r'Ú input_rankÚhidden_sizeÚ head_sizeÚ new_shapeÚx_rotateÚx_not_rotateÚx1Úx2ÚrealÚimagÚx_rotate_concatÚoutputr) r2rAr)r;r+rGr4rCr*r Úrotary_embedding_23/s´ þþþþþ þ ÿÿþþþþÿÿ"$ r^ÚscalerTcCs|dur|Sdt |¡S)z/Get the scale factor for attention computation.Ngð?)ÚmathÚsqrt)r_rTrrr Ú_get_scale_factor·srbÚtensorr2cCs:|jd|jd}}||}| ||||¡ dd¡ ¡S)z1Reshape 3D tensor to 4D for multi-head attention.r r-)r/ÚviewÚ transposeÚ contiguous)rcr2r&r4rSrTrrr Ú_reshape_3d_to_4d¼sýrgÚQÚKÚcurrent_q_num_headsÚcurrent_kv_num_headsÚqk_matmul_output_modec Cs2|dkrt|||||ƒSt t || dd¡¡¡S)z1Get QK output tensor based on the specified mode.rr,rD)Ú_compute_qk_output_for_mode_0rÚ zeros_likeÚmatmulre)rhrirjrkr_rlrrr Ú_get_qk_output_for_aten_spdaÉs ÿrpcs"t ˆˆdk‡‡fdd„¡dS)z-Validate Group Query Attention configuration.rcsdˆ›dˆ›dS)Nz q_num_heads (z%) must be divisible by kv_num_heads (z ) for GQArr©rkrjrr r0ász-_validate_gqa_configuration..N)rrL)rjrkrrqr Ú_validate_gqa_configurationÛs þrrcCs`|}||kr||}|j|dd}t||jdƒ}t |¡}||} ||} t | | dd¡¡S)zDHelper function to compute QK output for qk_matmul_output_mode == 0.r rIr9r,rD)Úrepeat_interleaverbr/r`rarrore)rhrirjrkr_ÚK_for_qkÚ repeat_factorÚscale_factorÚ sqrt_scaleÚQ_scaledÚK_scaledrrr rmås rmÚ Attentionç)Ú is_causalÚkv_num_headsÚq_num_headsrlr_ÚsoftcapÚsoftmax_precisionÚVÚ attn_maskÚpast_keyÚ past_valuer|r}r~rr€c(Cs¸d\} }}t|jƒ}|jd}t|jƒdkr;t |dko|dkdd„¡|jd}t|||ƒ}t|||ƒ}t|||ƒ}t t|jƒdkoQt|jƒdkoQt|jƒdkdd„¡|j|}t| |ƒ} |d urmtj||g|d n| ¡}|d ur~tj||g|d n| ¡}||}}|j| }|j| }|j|}|j|}|dko°| dko°|d uo°|d up°|jtj k}t ||ƒ|ræd }|d urÉ|jtj krÇ|n|}tjjj ||||d|| t ||kƒd}t||||| | ƒ}nÞ||krü||}|j|| d }|j|| d }tj|||j|jd }|r+t |d udd„¡t tj||tj |jd ¡}| |tdƒ¡}|d urE|jtj krA| |tdƒ¡}n||}t| |jdƒ} t | ¡}!||!}"||!}#t |"|# dd¡¡}$|$}|$|}%| dkrq|%}|dkr|t |%|¡}%| dkr†|%}|d ur°|tvr¨|%j}&|% tj|¡}%tj|%dd }'|' |&¡}'ntj|%dd }'ntj|%dd }'| dkr¾|'}t |'|¡}|dkrÖ| dd¡ ¡ !||d¡}||||fS)zMAttention-23 https://onnx.ai/onnx/operators/onnx__Attention.html#attention-23)r r-r9rr9cSr<)Nz;q_num_heads and kv_num_heads must be provided for 3D inputsrrrrr r0r=zattention_23..r r:cSr<)Nz'Q, K, and V should be 4D tensors by nowrrrrr r0!r=NrIr{)r‚Ú dropout_pr|r_Ú enable_gqa)ÚdtypeÚdevicecSr<)Nz'Cannot use both is_causal and attn_maskrrrrr r0vr=z-infr,rDr-)"rKr/rrLrgrbrQÚcloner‡ÚboolrrÚnnÚ functionalÚscaled_dot_product_attentionrprsÚzerosrˆÚtrilÚonesÚmasked_fillÚfloatr`raroreÚtanhÚ-_ATTENTION_23_ALLOWED_INTERMEDIATE_PRECISIONSÚtorÚONNX_DTYPE_TO_TORCH_DTYPEÚsoftmaxrfrd)(rhrirr‚rƒr„r|r}r~rlr_rr€Únum_head_dimÚsequence_dimÚhead_dimÚinput_shape_lenr2Úq_sequence_lengthÚq_head_sizeÚpresent_keyÚ present_valuerjrkÚkv_sequence_lengthÚcan_use_sdpaÚsdpa_attn_maskr]Ú qk_outputruÚ attn_biasÚcausal_maskrvrwrxryÚqk_matmul_outputÚqk_with_biasÚoriginal_dtypeÚ qk_softmaxrrr Úattention_23ûsê þ (þ ÿýÿý ÿþü ÿø úÿÿüÿ ÿ ÿrª)N)NNN)!r`ÚtypingrrrÚtyping_extensionsrrÚtorch.onnx.opsrrrr ÚdictÚ_opsÚ OpOverloadÚ__annotations__Ú frozensetr”ÚstrÚintr"ÚTensorrŠr^r’rbrgrprrrmÚtuplerªrrrr Ús ÿ ÿÿ þüøÿþýüúùø ÷ÿÿÿ þ ÿþýüûú ùÿÿ þ ÿþýüû úúòÿþýüûúø ÷ öõô óòñ