o
    Á¿ip!  ã                   @  s²  d dl mZ d dlmZ d dlZd dlmZ d dlmZ d dlm	Z	 ddl
mZ er<d d	lmZ d d
lmZ d dlmZ eG dd„ dƒƒZeG dd„ dƒƒZdHdd„ZdIdd„ZdJdd„ZdKd d!„Zd"e d#¡fd$e d%¡fd&e d'¡fd(e d)¡fd*e d+¡fd,e d-¡fd.e d/¡fd0e d1¡fd2e d1¡fd3e d4¡fd5e d6¡fd7e d6¡fd8e d9¡fd:e d9¡fd;e d<¡fd=e d>ej¡fgZe d?¡Zd@ZdLdCdD„ZdMdFdG„ZdS )Né    )Úannotations)Ú	dataclassN)ÚTYPE_CHECKING)ÚOptional)ÚMessageé   )ÚATTR_MODEL_NAME)ÚEngineCoreOutput)ÚRequestState)ÚRequestStateStatsc                   @  sº   e Zd ZU dZdZded< dZded< dZded< d	Zd
ed< dZ	ded< dZ
ded< dZded< dZded< dZded< dZded< dZded< dZded< dZded< dZded< dS )ÚRequestDataz>Container for vLLM request data extracted from engine outputs.NúOptional[str]Úpromptr   ÚintÚinput_tokensÚoutput_tokensÚ ÚstrÚoutput_textÚfinish_reasonzOptional[int]Úembedding_dimr   Únum_embeddingsÚ	lora_nameÚnum_cached_tokensúOptional[float]ÚtemperatureÚtop_pÚnÚ
max_tokenszOptional[list[int]]Úinput_)Ú__name__Ú
__module__Ú__qualname__Ú__doc__r   Ú__annotations__r   r   r   r   r   r   r   r   r   r   r   r   r   © r%   r%   ú\/home/ubuntu/.local/lib/python3.10/site-packages/ddtrace/contrib/internal/vllm/extractors.pyr      s    
 r   c                   @  sN   e Zd ZU dZdZded< dZded< dZded< dZded< dZ	ded< dS )	ÚLatencyMetricsz5Computed latency metrics from vLLM RequestStateStats.Nr   Útime_to_first_tokenÚtime_in_queueÚtime_in_model_prefillÚtime_in_model_decodeÚtime_in_model_inference)
r    r!   r"   r#   r(   r$   r)   r*   r+   r,   r%   r%   r%   r&   r'   '   s   
 r'   Úreturnútuple[int, Optional[int]]c                 C  sp   | du st | jƒdkrdS t | jƒdkrdt| jd ƒfS t| jd ƒt| jd ƒ}}|dkr4d|fS ||fS )z:Extract (num_embeddings, embedding_dim) from torch.Tensor.Nr   )r   Nr   éÿÿÿÿ)ÚlenÚshaper   )ÚtensorÚfirstÚlastr%   r%   r&   Úget_embedding_shape2   s   r5   Ú	req_stateú'RequestState'Úengine_core_outputú'EngineCoreOutput'c              
   C  sÄ   |j du}| j}|s%|du r%| jr%| jr%t| jddƒ}|r%|j| jdd}t|| jp+d| j|j	| j
| j| j| jd}|jrCt|jƒ|_|rXt|j ƒ\}}||_||_| j|_|S | jr`| jj|_|S )zøExtract request data from engine-side structures.

    Args:
        req_state: RequestState from OutputProcessor.request_states
        engine_core_output: EngineCoreOutput from engine_core

    Returns:
        RequestData for LLMObs tagging
    NÚ	tokenizerF)Úskip_special_tokensr   )r   r   r   r   r   r   r   r   )Úpooling_outputr   Úprompt_token_idsÚdetokenizerÚgetattrÚdecoder   Ú
prompt_lenr   r   r   r   r   Úmax_tokens_paramr   r   r5   r   r   r   r   )r6   r8   Úis_embeddingÚprompt_textr:   ÚdataÚnum_embÚemb_dimr%   r%   r&   Úextract_request_data@   s6   

øý
rH   r   c                 C  s   t | tdƒS )z7Extract injected model name (set by traced_engine_init)N)r?   r   )Úinstancer%   r%   r&   Úget_model_nameq   s   rJ   ÚstatsúOptional['RequestStateStats']úOptional[LatencyMetrics]c                 C  sœ   | sdS t ƒ }| jrt| jƒ|_| j}| j}| j}| j}|r'|r't|| ƒ|_|r2|r2t|| ƒ|_	|rA|rA||krAt|| ƒ|_
|rL|rLt|| ƒ|_|S )ztExtract latency metrics from vLLM RequestStateStats.

    Single source of truth for latency calculation logic.
    N)r'   Úfirst_token_latencyÚfloatr(   Ú	queued_tsÚscheduled_tsÚfirst_token_tsÚlast_token_tsr)   r*   r+   r,   )rK   ÚmetricsÚqueuedÚ	scheduledÚfirst_tokenÚ
last_tokenr%   r%   r&   Úextract_latency_metricsv   s$   rY   z<|start_header_id|>z?<\|start_header_id\|>(system|user|assistant)<\|end_header_id\|>z<|header_start|>z9<\|header_start\|>(system|user|assistant)<\|header_end\|>z<|start_of_role|>zF<\|start_of_role\|>(system|user|assistant|documents?)<\|end_of_role\|>z<start_of_turn>z"<start_of_turn>(system|user|model)z<beginning_of_sentence>z'<beginning_of_sentence>(system|user|ai)z<|im_start|>z%<\|im_start\|>(system|user|assistant)z	<|User|>:z<\|(User|Assistant)\|>:z
<|system|>z<\|(system|user|assistant)\|>z<|user|>u   <ï½œu   <ï½œ(User|Assistant)ï½œ>z<_user>z<_(system|user|bot)>z	<_system>z<#user#>z<#(system|user|bot)#>z
<#system#>z### Instructionz!### (Instruction|Response|Input):zUser:z"^(System|User|Assistant|Falcon): ?u   <\|im_end\|>|<\|eot_id\|>|<\|end\|>|<\|eot\|>|<\|eom\|>|<\|end_of_text\|>|<end_of_turn>|<end_of_sentence>|<\|eos\|>|<ï½œendâ–ofâ–sentenceï½œ>)Ú	assistantÚmodelÚaiÚbotÚresponseÚfalconr   úlist[Message]c                 C  sB   | sg S t D ]\}}|| v rt| |ƒ}|r|  S qtd| dgS )z2Parse a formatted prompt into structured messages.r   ©ÚroleÚcontent)Ú_ROLE_PATTERNSÚ_parse_with_patternr   )r   ÚmarkerÚpatternÚmessagesr%   r%   r&   Úparse_prompt_to_messagesÅ   s   
€ri   r   c                 C  sÆ   t | | ¡ƒ}|sg S g }t|ƒD ]O\}}| d¡}|sq| ¡ }| ¡ }|d t|ƒk r5||d   ¡ nt| ƒ}	t 	d| ||	… ¡ 
d¡ ¡ }
|tv rW|
sW|t|ƒd krWq| t||
d¡ q|S )z+Parse prompt using a specific role pattern.r   r   ú:ra   )ÚlistÚfinditerÚ	enumerateÚgroupÚlowerÚendr0   ÚstartÚ_END_MARKERSÚsubÚlstripÚstripÚ_ASSISTANT_ROLESÚappendr   )r   Úrole_patternÚmatchesrh   ÚiÚmatchÚ
role_matchrb   rq   rp   rc   r%   r%   r&   re   Õ   s    
(re   )r-   r.   )r6   r7   r8   r9   r-   r   )r-   r   )rK   rL   r-   rM   )r   r   r-   r`   )r   r   r-   r`   )Ú
__future__r   Údataclassesr   ÚreÚtypingr   r   Úddtrace.llmobs.typesr   Ú
_constantsr   Úvllm.v1.engine.corer	   Úvllm.v1.engine.output_processorr
   Úvllm.v1.statsr   r   r'   r5   rH   rJ   rY   ÚcompileÚ	MULTILINErd   rr   rv   ri   re   r%   r%   r%   r&   Ú<module>   sT    



1
%ã"ÿ
