o
    Û·i´<  ã                   @   sò   d dl Z d dlmZ d dlZd dlmZ d dlmZ d dl	m
Z
 d dlmZmZmZmZ eG dd„ deƒƒZd	efd
d„Zd	efdd„Zd	efdd„Zded	efdd„Zdee dee
 dededee deeef deeee f fdd„ZdS )é    N)Ú	dataclass)ÚPreTrainedTokenizerBase)ÚSampleRequest)ÚRequestFuncOutput)Ú"MILLISECONDS_TO_SECONDS_CONVERSIONÚTERM_PLOTLIB_AVAILABLEÚBenchmarkMetricsÚTaskTypec                   @   sæ   e Zd ZU dZeed< dZeed< dZeed< dZe	e
eef  ed< dZeed< dZeed	< dZeed
< dZeed< dZeed< dZeed< dZe	e
eef  ed< dZeed< dZeed< dZeed< dZe	e
eef  ed< dS )ÚMultiModalsBenchmarkMetricsç        Úmean_audio_ttfp_msÚmedian_audio_ttfp_msÚstd_audio_ttfp_msNÚpercentiles_audio_ttfp_msÚtotal_audio_duration_sr   Útotal_audio_framesÚaudio_throughputÚmean_audio_rtfÚmedian_audio_rtfÚstd_audio_rtfÚpercentiles_audio_rtfÚmean_audio_duration_sÚmedian_audio_duration_sÚstd_audio_duration_sÚpercentiles_audio_duration_s)Ú__name__Ú
__module__Ú__qualname__r   ÚfloatÚ__annotations__r   r   r   ÚlistÚtupler   r   Úintr   r   r   r   r   r   r   r   r   © r#   r#   úZ/home/ubuntu/vllm_env/lib/python3.10/site-packages/vllm_omni/benchmarks/metrics/metrics.pyr
      s    
 r
   Úmetricsc                 C   s  t djddddƒ t d d|j¡ƒ t d d|j¡ƒ |d ur(t d d	|¡ƒ |td
ƒkr6t d d|¡ƒ t d d|¡ƒ t d d|j¡ƒ |rRt d d|j¡ƒ t|tƒr`t d d|j	¡ƒ | t
jksid|v rntd|ƒ t| ||ƒ | t
jkr~t||ƒ t dƒ d S )Nú{s:{c}^{n}}z Serving Benchmark Result é2   ú=©ÚsÚnÚcú{:<40} {:<10}zSuccessful requests:zFailed requests:zMaximum request concurrency:Úinfú{:<40} {:<10.2f}zRequest rate configured (RPS):zBenchmark duration (s):zRequest throughput (req/s):zRequest goodput (req/s):úPeak concurrent requests:Úe2elz2==================================================)ÚprintÚformatÚ	completedÚfailedr   Úrequest_throughputÚrequest_goodputÚ
isinstancer
   Úmax_concurrent_requestsr	   Ú
GENERATIONÚprocess_one_metricÚprint_text_metricsÚprint_audio_metrics)Ú	task_typeÚselected_percentile_metricsÚmax_concurrencyÚrequest_rateÚbenchmark_durationÚgoodput_config_dictr%   r#   r#   r$   Úprint_metrics   s&   	



rD   c                 C   sÄ   t djddddƒ t d d|j¡ƒ t|tƒr<t d d|j¡ƒ t d	 d
|j¡ƒ t d	 d|j¡ƒ t d	 d|j¡ƒ t d	 d|j	¡ƒ | t
jkr^|D ]}|dkrSqL| d¡s]t||ƒ qLd S d S )Nr&   z Text Result r'   r(   r)   r-   zTotal input tokens:zTotal generated tokens:r/   z Output token throughput (tok/s):z%Peak output token throughput (tok/s):r0   zTotal Token throughput (tok/s):r1   Úaudio)r2   r3   Útotal_inputr8   r
   Útotal_outputÚoutput_throughputÚmax_output_tokens_per_sr9   Útotal_token_throughputr	   r:   Ú
startswithr;   )r>   r?   r%   Úmetricr#   r#   r$   r<   <   s"   



€ûr<   c                 C   sl   t djddddƒ t d d|j¡ƒ t d d	|j¡ƒ t d d
|j¡ƒ | D ]}| d¡r3t||ƒ q'd S )Nr&   z Audio Result r'   r(   r)   r/   z"Total audio duration generated(s):r-   zTotal audio frames generated:z#Audio throughput(audio duration/s):rE   )r2   r3   r   r   r   rK   r;   )r?   r%   rL   r#   r#   r$   r=   N   s   

€þr=   Úmetric_attribute_namec                 C   s^  ddddddddœ}|  | | ¡}td	j|d
ddƒ | dk}| dk}d}d}|r-d}d}n|r3d}d}d| › |› }t||dƒ}	td|  ¡ › |› dd›d|	d›ƒ d| › |› }
t||
dƒ}td|  ¡ › |› dd›d|d›ƒ d| › |› }t||g ƒ}|D ]*\}}| ¡ rtt|ƒƒnt|ƒ}d|› d|  ¡ › |› d}t|d›d|d›ƒ q‚d S )NzTime to First Tokenz'Time per Output Token (excl. 1st token)zInter-token LatencyzEnd-to-end LatencyzTime to First PacketzReal Time FactorzAudio Duration)ÚttftÚtpotÚitlr1   Ú
audio_ttfpÚ	audio_rtfÚaudio_durationr&   r'   ú-r)   rR   rS   Ú_msz (ms)Ú_sz (s)Ú Úmean_r   zMean ú:z<40ú z<10.2fÚmedian_zMedian Úpercentiles_ÚP)Úgetr2   r3   ÚgetattrÚupperÚ
is_integerÚstrr"   )rM   r%   Úmetric_header_mapÚheaderÚis_audio_rtfÚis_audio_durationÚsuffixÚunit_suffixÚmean_attr_nameÚ
mean_valueÚmedian_attr_nameÚmedian_valueÚpercentiles_attr_nameÚpercentilesÚ
percentileÚvalueÚp_strÚlabelr#   r#   r$   r;   X   sB   ù
&&ýr;   Úinput_requestsÚoutputsÚdur_sÚ	tokenizerÚselected_percentilesrC   Úreturnc           .         s"  g }d}d}d}g ‰g ‰g }g ‰g ‰g ‰g ‰g ‰ g }t t|ƒƒD ]“}|| jr®|| j}|s:t||| jddjƒ}| |¡ || | j7 }d}|dkra|| j|| j	 }||d  }ˆ |¡ | |¡ ˆ|| j
7 ‰ˆ || j	¡ ˆ t|| ddƒ¡ ˆ t|| ddƒ¡ ˆ  t|| ddƒ¡ | t|| d	dƒ¡ ˆ || j¡ |d7 }q | d¡ q |rg }g }d
|v rÍ| ˆ¡ | |d
 t ¡ d|v rß| ˆ¡ | |d t ¡ d|v rñ| |¡ | |d t ¡ d|v r| ˆ¡ | |d t ¡ t|Ž D ]}tdd„ t||ƒD ƒƒ}|r|d7 }q|dkr1dPdd„t_tjddd d}d}dd„ |D ƒ}dd„ |D ƒ}|rtdd„ |D ƒƒ}tdd„ |D ƒƒ}tt || ¡ƒd }t |¡} t |¡}!t|ƒD ]g\}}"|"j|"j	 g}#|#d }$|"j
D ]}%|$|%7 }$|# |$¡ qƒ|#D ] }&t|&| ƒ}'d|'  kr¦|k r±n q’| |'  d7  < q’t|"j| ƒ}(t|"j|"j | ƒ})t |(|)d ƒD ]}*|!|*  d7  < qËqqt| ƒdkrîtt | ¡ƒ}tt |!¡ƒ}trddl}+|+ ¡ },|,jt  t| ƒ¡| dd |,jt  t|!ƒ¡|!dd |, !¡  nt"dƒ t#dQi d|“d t|ƒ“d!|“d"t$|ƒ“d#|| “d$|| “d%t$|ƒ| “d&|t$|ƒ | “d't %ˆpPd¡d( “d)t &ˆp[d¡d( “d*t 'ˆpfd¡d( “d+‡fd,d„|D ƒ“d-t %ˆp{d¡d( “d.t &ˆp†d¡d( “d/t 'ˆp‘d¡d( “d0‡fd1d„|D ƒ“d2t %ˆ p¦d¡“d3t &ˆ p¯d¡“d4t 'ˆ p¸d¡“d5‡ fd6d„|D ƒ“d7t$ˆ ƒ“d8t$|ƒ“d9t$ˆ ƒ| “d:t %ˆpÜd¡“d;t &ˆpåd¡“d<t 'ˆpîd¡“d=‡fd>d„|D ƒ“d?t %ˆpd¡d( “d@t &ˆpd¡d( “dAt 'ˆpd¡d( “dB‡fdCd„|D ƒ“dDt %ˆp,d¡d( “dEt &ˆp7d¡d( “dFt 'ˆpBd¡d( “dG‡fdHd„|D ƒ“dIt %ˆpWd¡d( “dJt &ˆpbd¡d( “dKt 'ˆpmd¡d( “dL‡fdMd„|D ƒ“dN|“dO|“Ž}-t(||||	|
||-ƒ |-|fS )Ra°  Calculate the metrics for the benchmark.

    Args:
        input_requests: The input requests.
        outputs: The outputs of the requests.
        dur_s: The duration of the benchmark.
        tokenizer: The tokenizer to use.
        selected_percentiles: The percentiles to select.
        goodput_config_dict: The goodput configuration.

    Returns:
        A tuple of the benchmark metrics and the actual output lengths.
    r   F)Úadd_special_tokensé   rQ   r   rR   rS   Úaudio_framesrN   Ú
audio_ttftrO   r1   c                 S   s   g | ]\}}||k‘qS r#   r#   )Ú.0r*   Úrr#   r#   r$   Ú
<listcomp>Ý   s    z%calculate_metrics.<locals>.<listcomp>Nc                 S   s   |› d|› d|j › d| › dS )NrY   z: Ú
)r   )ÚmsgÚcategoryÚfilenameÚlinenoÚliner#   r#   r$   Ú<lambda>ã   s    z#calculate_metrics.<locals>.<lambda>zYAll requests failed. This is likely due to a misconfiguration on the benchmark arguments.é   )Ú
stacklevelc                 S   s   g | ]}|j r|‘qS r#   ©Úsuccess©r}   Úoutputr#   r#   r$   r   ï   ó    c                 S   s   g | ]}|j s|‘qS r#   r‰   r‹   r#   r#   r$   r   ð   r   c                 s   s    | ]}|j V  qd S ©N)Ú
start_timer‹   r#   r#   r$   Ú	<genexpr>ò   s   € z$calculate_metrics.<locals>.<genexpr>c                 s   s    | ]	}|j |j V  qd S rŽ   )r   Úlatencyr‹   r#   r#   r$   r   ó   s   € zOutput tokens per second)ÚtitlezConcurrent requests per secondz8tip: install termplotlib and gnuplot to plot the metricsr4   r5   rF   rG   r6   r7   rH   rJ   Úmean_ttft_mséè  Ústd_ttft_msÚmedian_ttft_msÚpercentiles_ttft_msc                    ó$   g | ]}|t  ˆ p
d |¡d f‘qS ©r   r”   ©Únpro   ©r}   Úp)Úttftsr#   r$   r   4  ó   $ r   r   r   r   c                    r˜   r™   rš   rœ   )Úaudio_ttfpsr#   r$   r   8  rŸ   r   r   r   r   c                    ó    g | ]}|t  ˆ p
d |¡f‘qS ©r   rš   rœ   )rS   r#   r$   r   <  ó     r   r   r   r   r   r   r   c                    r¡   r¢   rš   rœ   )Ú
audio_rtfsr#   r$   r   C  r£   Úmean_tpot_msÚstd_tpot_msÚmedian_tpot_msÚpercentiles_tpot_msc                    r˜   r™   rš   rœ   )Útpotsr#   r$   r   G  rŸ   Úmean_itl_msÚ
std_itl_msÚmedian_itl_msÚpercentiles_itl_msc                    r˜   r™   rš   rœ   )Úitlsr#   r$   r   K  rŸ   Úmean_e2el_msÚstd_e2el_msÚmedian_e2el_msÚpercentiles_e2el_msc                    r˜   r™   rš   rœ   )Úe2elsr#   r$   r   O  rŸ   rI   r9   rŽ   r#   ))ÚrangeÚlenrŠ   Úoutput_tokensÚgenerated_textÚ	input_idsÚappendÚ
prompt_lenÚtext_latencyrN   rP   r_   r‘   r   ÚzipÚallÚwarningsÚformatwarningÚwarnÚminÚmaxr"   r›   ÚceilÚzerosÚ	enumerater   r   r   ÚtermplotlibÚfigureÚplotÚarangeÚshowr2   r
   ÚsumÚmeanÚstdÚmedianrD   ).rs   rt   ru   rv   rw   rC   r>   r?   r@   rA   rB   Úactual_output_lensrF   r4   Úgood_completedÚ	all_tpotsr{   ÚiÚ
output_lenrO   Úlatency_minus_ttftÚvalid_metricsÚ
slo_valuesÚ
req_metricÚis_good_reqrI   r9   Úsuccessful_outputsÚfailed_outputsÚmin_start_timeÚmax_end_timeÚduration_secondsÚtokens_per_secondÚconcurrent_requests_per_secondrŒ   Útoken_timesÚcurrent_timeÚ	itl_valueÚ
token_timeÚsecond_bucketÚrequest_start_secondÚrequest_end_secondÚsecondÚtplÚfigr%   r#   )rS   r¤   r    r³   r®   r©   rž   r$   Úcalculate_metrics…   sŽ  










€
ÿþ


€ÿýý
ÿþýüûúùø	÷
öõôóòñðïîíìëêéèçæåäãâá à!ß"Þ#Ý$Ü%Û&Ú'Ù(Ø)×+ù	rê   )r¾   Údataclassesr   Únumpyr›   Útransformersr   Úvllm.benchmarks.datasetsr   Ú)vllm.benchmarks.lib.endpoint_request_funcr   Úvllm.benchmarks.server   r   r   r	   r
   rD   r<   r=   rb   r;   r    r   Údictr!   r"   rê   r#   r#   r#   r$   Ú<module>   sD    
ù
ÿ
þ-ÿþýüû
úô