o
    ÁÙ·i<  ã                   @   sä   d dl Z d dlZd dlZd dlZd dlmZ d dlZd dlZd dlmZm	Z	m
Z
mZmZ d dlmZmZmZmZ d dlmZ d dlmZ d dlmZ d dlmZ e d	¡Zdd
d„Zdd„ Zedkrpeƒ Zeej ƒ eeƒ dS dS )é    N)Údatetime)Ú	PrecisionÚcreate_onnxruntime_sessionÚget_ort_environment_variablesÚprepare_environmentÚsetup_logger)ÚDEFAULT_TOLERANCEÚMODEL_CLASSESÚPRETRAINED_GPT2_MODELSÚ
Gpt2Helper)Úversion)ÚQuantizeHelper)Ú
AutoConfig)Ú__version__Ú c                 C   s6  t  ¡ }|jdddtdd t¡ d |jddtd	tt ¡ ƒd
d t ¡ ¡ d |jddtt	j
 dd¡dd |jddtt	j
 dd¡dd |jdddtdd |jdddddd |jdddddd |jdd  |jd!td"dg d#¢d$d% |jd&ddd'd |jdd( |jd)d*ttjttƒd+d, |jd-ddd.d |jdd/ |jd0d1d2td3gd4d5 |jd6d2td3gd7d5 |jd8d9d2tg d:¢d;d5 |jd<d=dd d>d? |jd@dtdAdBd |jdCdddD |jddE |jdFdddD |jddG |jdHdddD |jddI |jdJdddD |jddK | | ¡}|S )LNz-mz--model_name_or_pathTz;Model path, or pretrained model name selected in the list: z, )ÚrequiredÚtypeÚhelpz--model_classFÚGPT2LMHeadModelz!Model type selected in the list: )r   r   ÚdefaultÚchoicesr   z--cache_dirÚ.Úcache_modelsz%Directory to cache pre-trained models)r   r   r   r   z
--onnx_dirÚonnx_modelszDirectory to store onnx modelsz--test_timeséd   z8Number of repeat times to get average inference latency.)r   r   r   r   z-vz--validate_onnxÚ
store_truezValidate ONNX model)r   Úactionr   z-oz--optimize_onnxz'Use optimizer.py to optimize onnx model)Úoptimize_onnxz--stager   )r   é   é   a6  Stage in generation: 1 (initial decoder), 2 (decoder), 0 (both). 1 - decode the first token when past_sequence_length is zero; 2 - decode the remaining tokens when past_sequence_length is not zero; 0 - one onnx model for both stages 1 and 2. Note that we will optimize 1 and 2 differently for best performance.)r   r   r   r   r   z	--use_gpuzuse GPU for inference)Úuse_gpuz-pz--precisionzfPrecision of model to run. fp32 for full precision, fp16 for half precision, and int8 for quantization)r   r   r   r   z--torchscriptzuse Torchscript)Útorchscriptz-bz--batch_sizesú+r   z
batch size)Únargsr   r   r   z--sequence_lengthsz!sequence lengths (excluding past)z-sz--past_sequence_lengths)é   é   é    é@   é€   é   zpast sequence lengthsz-rz--result_csvz$CSV file for saving summary results.)r   r   r   z--thread_numéÿÿÿÿzThreads to usez--include_copy_output_latency)r   r   )Úinclude_copy_output_latencyz	--verbose)Úverbosez--output_torch_latency)Úoutput_torch_latencyz--disable_io_binding)Údisable_io_binding)ÚargparseÚArgumentParserÚadd_argumentÚstrÚjoinr
   Úlistr	   ÚkeysÚosÚpathÚintÚset_defaultsr   ÚFLOAT32Ú
parse_args)ÚargvÚparserÚargs© r?   úg/home/ubuntu/.local/lib/python3.10/site-packages/onnxruntime/transformers/models/gpt2/benchmark_gpt2.pyÚparse_arguments!   sÔ   û
ú	ûûûûûúú	ûú	û
rA   c           !      C   s¸  t  t¡t  d¡k rtdƒ‚t d| › ¡ | jtjkr&| j	r"| j
s&J dƒ‚| jtjkr3| j
r3J dƒ‚| jdkrB| jdgksBJ dƒ‚t | jdkrOtjd	d
n| j¡ ttj ¡ ƒ | j}| j}t||| j
ƒ t| j d }t}tj| j| j|d}|j| j||d}t  | j
rŠdnd¡}| !|¡ |j"dk}|j#|| j| jd	|d}	|	d }
t| j d }|j$|||
| j%|||d | j	sÅ| jtj&kr|	| jtjkrÑt'| jƒnd }
|j	|	d |
| jtjk|j(j)|j(j*|d	| jd | jtjkrt d¡ t+ ,|
|	d |¡ t+ -|¡}t d¡ |	d }
| jr|j|||||d}t.|
| j
d| j| j%d}|d u r0d S | /t0| j1ƒt0| jƒt0| j2ƒ|| j¡}| 3||| jtjk¡}| j4p[d 5t6 7¡  8d¡¡}t9|ddde}g d ¢}t:j;||d!}| <¡  | j1D ]I}| j2D ]A}| jD ]9}|dkr•|dkr•|dks—J ‚t =d"|||¡ |j>||||j)|j*|j"|j?|| jtjk||d#}| /||||| j¡}zá| j@sÊ| jAr| B||| jC¡\}}tD|ƒD ],\}}tE|tFƒr÷t =d$|› d%tG|ƒ› d&|d jH› ¡ qØt =d$|› d'|jH› ¡ qØnd }d }| jIr| J||| jC¡\}}n|jK||||| jCd| jLd(\}}| j@rb|}| jIsDg }|D ]}| M| N¡  O¡ ¡ q7|jP||| jtQ| j tQ| j d)rbt d*tQ| j › d+¡ t d,||||| jIrod-nd|rud.nd¡ | j| j| jtRƒ | j
| j| j	| j|||| jI|r”|d/›nd0|d/›d œ} | S| ¡ W qƒ tTy½   tjUd1d	d2 Y    W d   ƒ d S w q}qwW d   ƒ n	1 sÍw   Y  t d3|› ¡ |S )4Nz3.1.0z/This tool requires transformers 3.1.0 or later.z
Arguments:z'fp16 requires --optimize_onnx --use_gpuzquantization only supports CPUr   r   z<past_sequence_lengths shall be 0 for stage==1 (init decoder)T)Úlogical)r!   Ú	cache_dir)ÚconfigrC   zcuda:0Úcpué   )Úhas_pastÚ
new_folderÚrawr   )Úhas_position_idsÚhas_attention_maskÚfp32)Úauto_mixed_precisionÚstagezquantizing model...Úint8zfinished quantizing modelF)Úenable_all_optimizationÚnum_threadsr,   zbenchmark_result_{}.csvz%Y%m%d-%H%M%SÚar   )ÚmodeÚnewline)Ú
model_nameÚmodel_classrN   Úenvironment_variablesÚgpuÚ	precisionÚ	optimizerr!   Ú
batch_sizeÚsequence_lengthÚpast_sequence_lengthr.   Útorch_latencyÚonnxruntime_latency)Ú
fieldnameszMRunning test for batch_size=%d sequence_length=%d past_sequence_length=%d ...)Úfloat16rJ   rK   ztorch output z is tuple of size z, shape z shape )Úreturn_numpyr+   )rV   ÚrtolÚatolz:Pytorch and ONNX Runtime outputs are all close (tolerance=z).zZbatch_size=%d, sequence_length=%d, past_sequence_length=%d, onnxruntime_latency=%.2f %s %sz(disable_io_binding)z, torch_latency={torch_latency}z.2fÚNoneÚ	Exception)Úexc_infozResults are saved to file )Vr   ÚparseÚtransformers_versionÚRuntimeErrorÚloggerÚinforY   r   ÚFLOAT16r   r    ÚINT8rN   Úpast_sequence_lengthsÚtorchÚset_num_threadsÚ
thread_numÚpsutilÚ	cpu_countÚprintÚ
__config__Úparallel_inforC   Úonnx_dirr   r	   rV   r   r   Úfrom_pretrainedÚmodel_name_or_pathr!   ÚdeviceÚtoÚn_layerÚget_onnx_pathsÚexport_onnxr,   r:   r2   rD   Únum_attention_headsÚhidden_sizer   Úquantize_onnx_modelÚquantize_torch_modelr   Úget_output_shapesÚmaxÚbatch_sizesÚsequence_lengthsÚget_output_buffersÚ
result_csvÚformatr   ÚnowÚstrftimeÚopenÚcsvÚ
DictWriterÚwriteheaderÚdebugÚget_dummy_inputsÚ
vocab_sizeÚvalidate_onnxr-   Úpytorch_inferenceÚ
test_timesÚ	enumerateÚ
isinstanceÚtupleÚlenÚshaper.   Úonnxruntime_inferenceÚ$onnxruntime_inference_with_binded_ior+   ÚappendrE   ÚnumpyÚcompare_outputsr   r   Úwriterowrf   Úerror)!r>   rC   Ú
output_dirrV   Ú
gpt2helperrD   Úmodelr{   Úuse_external_data_formatÚonnx_model_pathsÚonnx_model_pathÚuse_paddingÚsessionÚmax_output_shapesÚoutput_buffersÚcsv_filenameÚcsv_fileÚcolumn_namesÚ
csv_writerr[   r\   r]   Údummy_inputsÚoutput_shapesÚoutputsr^   ÚiÚvalueÚort_outputsÚort_latencyÚcopy_outputsÚoutputÚrowr?   r?   r@   Úmain¨   sŽ  ÿ
"

ûù

ø


ûû
û"ü
õûÿú
ÿ
ù
ûÿùò ü •ÿÿì r»   Ú__main__)N)!r/   rŽ   Úloggingr6   r   rs   rp   Úbenchmark_helperr   r   r   r   r   Úgpt2_helperr   r	   r
   r   Ú	packagingr   Úquantize_helperr   Útransformersr   r   ri   Ú	getLoggerrk   rA   r»   Ú__name__r>   r,   r?   r?   r?   r@   Ú<module>   s.   

  s
ý