o
    
Û¾i@€  ã                   @   s<  U d dl Z d dlmZmZmZ d dlmZmZmZm	Z	m
Z
 d dlZd dlmZ d dlmZmZmZ d dlmZmZ d dlmZ d dlmZ d dlmZ d d	lmZ d d
lmZmZm Z  d dl!m"Z"m#Z#m$Z$m%Z% d dl&m'Z'm(Z( d dl)m*Z* d dl+m,Z,m-Z- ddl.m/Z/ ddl0m1Z1m2Z2m3Z3 ddl4m5Z5m6Z6 ddl7m8Z8m9Z9m:Z: ddl;m<Z< ddl=m>Z>m?Z?m@Z@mAZA dZBG dd„ de,ƒZCG dd„ de,ƒZDG dd„ de,ƒZEeDeEB ZFe
eGd< eFeCB ZHe
eGd< G dd „ d e9e	ƒZIG d!d"„ d"e:ƒZJG d#d$„ d$e5eJ ƒZKG d%d&„ d&e8eJ ƒZLG d'd(„ d(ejMƒZNejOeLeJeKd)G d*d+„ d+ejMe2e3ƒƒZPdS ),é    N)ÚIterableÚMappingÚSequence)Ú	AnnotatedÚFinalÚLiteralÚProtocolÚ	TypeAlias)ÚBatchFeatureÚLlavaOnevisionConfigÚLlavaOnevisionProcessor)Úget_anyres_image_grid_shapeÚunpad_image)Ú
VllmConfig)ÚBaseDummyOptions)Ú
get_act_fn)ÚMULTIMODAL_REGISTRY)ÚMultiModalDataDictÚMultiModalFieldConfigÚMultiModalKwargsItems)Ú	ImageSizeÚMultiModalDataItemsÚVideoEmbeddingItemsÚVideoProcessorItems)ÚPromptReplacementÚPromptUpdate)ÚIntermediateTensors)ÚTensorSchemaÚTensorShapeé   )ÚCLIPVisionModel)ÚMultiModalEmbeddingsÚSupportsMultiModalÚ
SupportsPP)ÚLlavaDummyInputsBuilderÚinit_vision_tower_for_llava)Ú BaseLlavaNextMultiModalProcessorÚLlavaNextLikeConfigÚLlavaNextProcessingInfo)ÚSiglipVisionModel)ÚAutoWeightsLoaderÚWeightsMapperÚinit_vllm_registered_modelÚmaybe_prefixé   c                
   @   sP   e Zd ZU dZdZed ed< eej	e
ej	 B eddddddhd	f ed< d
S )ÚLlavaOnevisionVideoPixelInputsal  
    Dimensions:
        - bn: Batch size * number of videos
        - f: Number of frames
        - c: Number of channels (3)
        - h: Height
        - w: Width

        Note that `f` may be different for each batch, and 'num_frames'
        may be different for each video, in which case the data is passed as a
        list instead of a batched tensor.
    Úpixel_values_videosÚtypeÚbnÚfé   ÚhÚw©Údynamic_dimsN©Ú__name__Ú
__module__Ú__qualname__Ú__doc__r1   r   Ú__annotations__r   ÚtorchÚTensorÚlistr   © rB   rB   ú^/home/ubuntu/.local/lib/python3.10/site-packages/vllm/model_executor/models/llava_onevision.pyr/   7   s   
 ÿÿr/   c                
   @   sl   e Zd ZU dZdZed ed< eej	e
ej	 B eddddddhd	f ed< eej	d
B eddƒf ed< d
S )ÚLlavaOnevisionImagePixelInputsaU  
    Dimensions:
        - bn: Batch size * number of images
        - np: Number of patches (1 + num_patches)
        - c: Number of channels (3)
        - h: Height
        - w: Width

        Note that `num_patches` may be different per batch and image,
        in which case the data is passed as a list instead of a batched tensor.
    Úpixel_valuesr1   r2   Únpr4   r5   r6   r7   Né   Úimage_sizesr9   rB   rB   rB   rC   rD   M   s   
 ÿÿ rD   c                   @   s<   e Zd ZU dZdZed ed< eej	e
dddƒf ed< dS )	Ú"LlavaOnevisionImageEmbeddingInputsz¢
    Dimensions:
        - bn: Batch size * number of images
        - ifs: Image feature size
        - hs: Hidden size (must match language model backbone)
    Úimage_embedsr1   r2   ÚifsÚhsÚdataN)r:   r;   r<   r=   r1   r   r>   r   r?   r@   r   rB   rB   rB   rC   rI   d   s   
 
ÿÿrI   ÚLlavaOnevisionImageInputsÚLlavaOnevisionMultiInputsc                   @   s   e Zd ZU ee ed< dS )ÚLlavaOnevisionLikeConfigÚvideo_token_indexN)r:   r;   r<   r   Úintr>   rB   rB   rB   rC   rP   }   s   
 rP   c                   @   sø   e Zd Zdefdd„Zdefdd„Zdeee	dB f fdd	„Z
d
e	de	de	de	de	dee	e	f fdd„Zdefdd„Zde	de	de	fdd„Zde	de	de	de	fdd„Zde	de	fdd„Zde	deee	f de	fdd „Zde	deee	f de	fd!d"„ZdS )#ÚLlavaOnevisionProcessingInfoÚreturnc                 C   s   | j  t¡S ©N)ÚctxÚget_hf_configr   ©ÚselfrB   rB   rC   rW   ‚   s   z*LlavaOnevisionProcessingInfo.get_hf_configÚkwargsc                 K   s   | j jtfi |¤ŽS rU   )rV   Úget_hf_processorr   )rY   rZ   rB   rB   rC   r[   …   s   z-LlavaOnevisionProcessingInfo.get_hf_processorNc                 C   s
   d d dœS )N©ÚimageÚvideorB   rX   rB   rB   rC   Úget_supported_mm_limitsˆ   s   
z4LlavaOnevisionProcessingInfo.get_supported_mm_limitsÚoriginal_heightÚoriginal_widthÚnpatchesÚnum_patch_heightÚnum_patch_widthc                C   sà   || }|| }|| }|| }	||	kr,t t|||  dƒƒ}
||
 d }|d|  }nt t|||  dƒƒ}|| d }|d|  }|| }|}t || d|d   ¡}|dkrlt || ƒ}t || ƒ}|| }|}||fS )Né   rG   é	   çš™™™™™ñ?)rR   ÚroundÚmathÚsqrt)rY   r`   ra   rb   rc   rd   Úcurrent_heightÚcurrent_widthÚaspect_ratioÚcurrent_aspect_ratioÚ
new_heightÚpaddingÚ	new_widthÚunpadded_featuresÚnewline_featuresÚratioÚheight_factorÚwidth_factorrB   rB   rC   Ú_get_num_unpadded_features   s0   	ÿÿz7LlavaOnevisionProcessingInfo._get_num_unpadded_featuresc                 C   s   t dddS )Ni  i°  )ÚwidthÚheight)r   rX   rB   rB   rC   Ú!get_image_size_with_most_featuresµ   s   z>LlavaOnevisionProcessingInfo.get_image_size_with_most_featuresÚimage_widthÚimage_heightc                C   s:   |   ¡ }t|ddƒ}|  ¡ }| ¡ }t || ¡}|| S )NÚspatial_pool_striderG   )rW   ÚgetattrÚget_vision_encoder_infoÚget_patch_grid_lengthri   Úceil)rY   r{   r|   Ú	hf_configr}   Úvision_encoder_infoÚpatch_grid_lengthÚpooled_grid_lengthrB   rB   rC   Ú_get_num_frame_tokens¹   s   z2LlavaOnevisionProcessingInfo._get_num_frame_tokensÚ
num_framesc                C   s   | j ||d}|| d S )N)r{   r|   r   )r†   )rY   r{   r|   r‡   Únum_frame_tokensrB   rB   rC   Úget_num_video_tokensÈ   s
   þz1LlavaOnevisionProcessingInfo.get_num_video_tokensÚ
max_tokensc                 C   s>   |   ¡ \}}d}	 |d }| j|||d}||kr	 |S |}q	)Nr   Tr   ©r{   r|   r‡   )rz   r‰   )rY   rŠ   Útarget_widthÚtarget_heightr‡   Únext_num_framesÚnext_max_tokensrB   rB   rC   Ú_get_max_video_framesÖ   s   ýþõz2LlavaOnevisionProcessingInfo._get_max_video_framesÚseq_lenÚ	mm_countsc                 C   s4   |  dd¡}|  |¡}t|t|dƒ tƒ}t|dƒS )Nr^   r   r   )Úgetr   ÚminÚmaxÚ_MAX_FRAMES_PER_VIDEO)rY   r‘   r’   Ú
max_videosÚmax_total_framesÚmax_frames_per_videorB   rB   rC   Ú!get_num_frames_with_most_featuresê   s   
ÿ
z>LlavaOnevisionProcessingInfo.get_num_frames_with_most_featuresc                 C   s$   |   ¡ \}}| j|||  ||¡dS )Nr‹   )rz   r‰   rš   )rY   r‘   r’   rŒ   r   rB   rB   rC   Úget_max_video_tokensø   s   
ýz1LlavaOnevisionProcessingInfo.get_max_video_tokens)r:   r;   r<   rP   rW   Úobjectr[   r   ÚstrrR   r_   Útuplerw   r   rz   r†   r‰   r   rš   r›   rB   rB   rB   rC   rS      sb    ýüûúù

ø(ýü
ûýüû
úþ
ý
üþ
ýürS   c                	   @   sX   e Zd Zdeeef defdd„Z	d
dedeeef deeef dB defdd	„Z	dS )Ú LlavaOnevisionDummyInputsBuilderr’   rT   c                 C   s>   |  dd¡}|  dd¡}| j ¡ }|j}|j}|| ||  S )Nr]   r   r^   )r“   Úinfor[   Úimage_tokenÚvideo_token)rY   r’   Ú
num_imagesÚ
num_videosÚ	processorr¡   r¢   rB   rB   rC   Úget_dummy_text	  s   
z/LlavaOnevisionDummyInputsBuilder.get_dummy_textNr‘   Ú
mm_optionsc                 C   s€   |  dd¡}|  dd¡}| j ¡ \}}| j ||¡}|r!|  d¡nd }	|r*|  d¡nd }
| j||||	d| j|||||
ddœS )Nr]   r   r^   )rx   ry   r£   Ú	overrides)rx   ry   r‡   r¤   r¨   r\   )r“   r    rz   rš   Ú_get_dummy_imagesÚ_get_dummy_videos)rY   r‘   r’   r§   r£   r¤   rŒ   r   Útarget_num_framesÚimage_overridesÚvideo_overridesrB   rB   rC   Úget_dummy_mm_data  s,   ÿüûùz2LlavaOnevisionDummyInputsBuilder.get_dummy_mm_datarU   )
r:   r;   r<   r   r   rR   r¦   r   r   r®   rB   rB   rB   rC   rŸ     s    üþ
ýüûrŸ   c                
       sÌ   e Zd Zdedeeef deeef fdd„Zdedeeef deeef d	eeef def
‡ fd
d„Z	dede
deeef deeef def
‡ fdd„Zde
deeef dedee f‡ fdd„Z‡  ZS )Ú!LlavaOnevisionMultiModalProcessorÚ	hf_inputsÚhf_processor_mm_kwargsrT   c                 C   s(   t t d¡t d¡t d¡t d¡dS )Nr]   r^   )rE   rH   rJ   r0   )Údictr   Úbatched)rY   r°   r±   rB   rB   rC   Ú_get_mm_fields_config8  s   üz7LlavaOnevisionMultiModalProcessor._get_mm_fields_configÚpromptÚmm_dataÚ	mm_kwargsÚ
tok_kwargsc                    s  t |ƒ}| dg ¡}t|tƒsJ ‚|stƒ j||||dS | j ¡ }|j}|j	}tƒ j|i ||d}	| dg ¡}
t|
tƒs?J ‚|
r[tƒ j|t
|
ƒ d|
i||d}dd„ | ¡ D ƒ}ni }g }|D ]}tƒ j|d|i||d}| |d d ¡ qad|i}t |	fi |¤|¤Ž}t|ƒS )NÚvideos)rµ   r¶   r·   r¸   Úimagesc                 S   s   i | ]\}}|d v r||“qS ))rE   rH   rB   )Ú.0ÚkÚvrB   rB   rC   Ú
<dictcomp>o  s
    þzHLlavaOnevisionMultiModalProcessor._call_hf_processor.<locals>.<dictcomp>r0   r   )r²   ÚpopÚ
isinstancerA   ÚsuperÚ_call_hf_processorr    r[   r¡   r¢   ÚlenÚitemsÚappendr
   )rY   rµ   r¶   r·   r¸   r¹   r¥   r¡   r¢   Útext_outputsrº   Úprocessor_outputsÚimage_outputsr0   r^   Úitem_outputsÚvideo_outputsÚcombined_outputs©Ú	__class__rB   rC   rÂ   D  sd   ü
ü
üþüÿþýz4LlavaOnevisionMultiModalProcessor._call_hf_processorÚprompt_textÚmm_itemsÚtokenization_kwargsc                    s*   t ƒ j||||d}|o|jddddkS )N)rÎ   rÏ   r±   rÐ   r^   F)Ústrictr   )rÁ   Ú_hf_processor_applies_updatesÚ	get_count)rY   rÎ   rÏ   r±   rÐ   Úbase_resultrÌ   rB   rC   rÒ   ‹  s   üz?LlavaOnevisionMultiModalProcessor._hf_processor_applies_updatesÚout_mm_kwargsc                    sP   t ƒ jˆ ||d}ˆj ¡ }|j‰dtf‡ ‡‡fdd„}g |¢tdˆg|d‘S )N)rÏ   r±   rÕ   Úitem_idxc                    sV   ˆ   dttf¡}t|tƒr| | ¡}n| | ¡}ˆjj|j|j	| 
| ¡d}ˆg| S )Nr^   r‹   )Ú	get_itemsr   r   rÀ   Úget_feature_sizeÚget_frame_sizer    r‰   rx   ry   Úget_num_frames)rÖ   r¹   Únum_video_tokensÚ
image_size©rÏ   rY   Úvideo_token_idrB   rC   Úget_video_replacementª  s   ÿ

ý
zTLlavaOnevisionMultiModalProcessor._get_prompt_updates.<locals>.get_video_replacementr^   )ÚmodalityÚtargetÚreplacement)rÁ   Ú_get_prompt_updatesr    rW   rQ   rR   r   )rY   rÏ   r±   rÕ   Úimage_replsr‚   rß   rÌ   rÝ   rC   rã   ›  s"   ý
ÿýþz5LlavaOnevisionMultiModalProcessor._get_prompt_updates)r:   r;   r<   r
   r   r   rœ   r   r´   rÂ   r   ÚboolrÒ   r   r   r   rã   Ú__classcell__rB   rB   rÌ   rC   r¯   5  sN    þ
ý

üþ
ý
ü
ûúGþý
ü
ûúþ
ýüûr¯   c                       s8   e Zd Zdef‡ fdd„Zdejdejfdd„Z‡  ZS )Ú!LlavaOnevisionMultiModalProjectorÚconfigc                    sR   t ƒ  ¡  tj|jj|jj|jd| _t	|j
ƒ| _tj|jj|jj|jd| _d S )N)Úbias)rÁ   Ú__init__ÚnnÚLinearÚvision_configÚhidden_sizeÚtext_configÚmultimodal_projector_biasÚlinear_1r   Úprojector_hidden_actÚactÚlinear_2)rY   rè   rÌ   rB   rC   rê   Æ  s   
ýýz*LlavaOnevisionMultiModalProjector.__init__Úimage_featuresrT   c                 C   s"   |   |¡}|  |¡}|  |¡}|S rU   )rñ   ró   rô   )rY   rõ   Úhidden_statesrB   rB   rC   ÚforwardÕ  s   


z)LlavaOnevisionMultiModalProjector.forward)	r:   r;   r<   r   rê   r?   r@   r÷   ræ   rB   rB   rÌ   rC   rç   Å  s    rç   )r    Údummy_inputsc                       sö  e Zd ZeddddddœdZeded	ed
edB fdd„ƒZddœde	ded
df‡ fdd„Z
ded
edB fdd„Zded
edB fdd„Zded
efdd„ZdeeB dejd
ejfdd„Zddd œd!ejd"ejd#ed
ejfd$d%„Zd&ed
ejeej B fd'd(„Zd)ed
ejeej B fd*d+„ZdeeB dejd
ejfd,d-„Zd&efd.d/„ZdCd1ejd2efd3d4„Zded
efd5d6„Z 		dDd7ejdB d8ejd9e!dB d:ejdB ded
eje!B fd;d<„Z"d=ejd
ejdB fd>d?„Z#d@e$e%eejf  d
e&e fdAdB„Z'‡  Z(S )EÚ&LlavaOnevisionForConditionalGenerationzlanguage_model.model.zvision_tower.zmulti_modal_projector.Úimage_newlinezlanguage_model.lm_head.)zmodel.language_model.zmodel.vision_tower.zmodel.multi_modal_projector.zmodel.image_newlinezlm_head.)Úorig_to_new_prefixrà   ÚirT   Nc                 C   s$   |  d¡rdS |  d¡rdS tdƒ‚)Nr]   z<image>r^   z<video>z)Only image or video modality is supported)Ú
startswithÚ
ValueError)Úclsrà   rü   rB   rB   rC   Úget_placeholder_strí  s
   

z:LlavaOnevisionForConditionalGeneration.get_placeholder_strÚ )ÚprefixÚvllm_configr  c                   sæ   t ƒ  ¡  |jj}|j}|jj}|| _|| _|  |ddh¡$ t||dt	|dƒd| _
t t |jj¡¡| _t|ƒ| _W d   ƒ n1 sEw   Y  |  |¡ t||jt	|dƒd| _W d   ƒ n1 sfw   Y  | jjj| _d S )Nr]   r^   FÚvision_tower)Úquant_configÚrequire_post_normr  Úlanguage_model)r  r‚   r  )rÁ   rê   Úmodel_configr‚   r  Úmultimodal_configrè   Ú_mark_tower_modelr%   r-   r  rë   Ú	Parameterr?   Úemptyrï   rî   rú   rç   Úmulti_modal_projectorÚ_mark_language_modelr,   r  ÚmodelÚmake_empty_intermediate_tensors)rY   r  r  rè   r  r	  rÌ   rB   rC   rê   ö  s6   
üÿõ
ýÿÿz/LlavaOnevisionForConditionalGeneration.__init__rZ   c                 K   s~   |  dd ¡}|  dd ¡}|  dd ¡}|d u r|d u rd S |d ur1td||| jjj| jjjdœdS |d ur;td|dS tdƒ‚)NrE   rH   rJ   ©r5   r6   )r1   rE   rH   Úresolve_bindings)r1   rM   z This line should be unreachable.)r¿   rD   rè   rí   rÜ   rI   ÚAssertionError)rY   rZ   rE   rH   rJ   rB   rB   rC   Ú_parse_and_validate_image_input  s(   þü
þzFLlavaOnevisionForConditionalGeneration._parse_and_validate_image_inputc                 K   s8   |  dd¡}|du rdS td|| jjj| jjjdœdS )zÊ
        A legal video input should have the following dimensions:
        {
            "pixel_values_videos" :
                list[b, Tensor(nb_frames, nb_channels, height, width)]
        }
        r0   Nr  )r1   r0   r  )r¿   r/   rè   rí   rÜ   )rY   rZ   r0   rB   rB   rC   Ú_parse_and_validate_video_input4  s   
þýzFLlavaOnevisionForConditionalGeneration._parse_and_validate_video_inputc                 K   sZ   i }|D ]&}|dv rd|vr| j di |¤Ž|d< |dv r*d|vr*| jdi |¤Ž|d< q|S )N)rE   rJ   r]   )r0   Úvideo_embedsr^   rB   )r  r  )rY   rZ   Úmm_input_by_modalityÚ	input_keyrB   rB   rC   Ú%_parse_and_validate_multimodal_inputsK  s   
ÿ
ÿ€zLLlavaOnevisionForConditionalGeneration._parse_and_validate_multimodal_inputsr  rE   c                 C   s   ||| j jdS ©N)Úfeature_select_strategy)rè   Úvision_feature_select_strategy)rY   r  rE   rB   rB   rC   Ú_image_pixels_to_featuresb  s   þz@LlavaOnevisionForConditionalGeneration._image_pixels_to_featuresÚanyres_max_9)rú   Úvision_aspect_ratiorÜ   Úpatch_embeddingsÚstrategyc                C   sB  |dkr
|  dd¡S | d¡r| jjj| jjj  }}|d }|| |jd kr-tdƒ‚|jd dkrÿ|dd … }	| ¡ \}
}t	|
|f| jj
| jjjƒ\}}|| }|	d |…  ||||d¡}	d|v rå|	 ddd	dd
¡ ¡   dd	¡  d	d
¡}	t|	|
|fƒ}	t| d¡ƒ}|	j\}}}t || ||d	   ¡}|dkrµ|	d  }	tjj|	t|| ƒt|| ƒgddd }	|d urÚtj|	|d d …d d f jg |	jd d… ¢d‘R Ž  |	j¡fdd}	|	  dd	¡ dd¡}	n|	 dd	dd
d¡ ¡   dd
¡}	tj||	fdd}|S d|v rtj|| jd   |j¡fdd}|S |}|S td|› ƒ‚)NÚflatr   r   Úspatialz<The number of patches is not consistent with the image size.éÿÿÿÿÚunpadé   rG   r4   Úanyres_max_rg   Úbilinear)Úmode©Údimz!Unexpected patch merge strategy: )Úflattenrý   rè   rí   rÜ   Ú
patch_sizeÚshaperþ   Útolistr   Úimage_grid_pinpointsÚviewÚpermuteÚ
contiguousr   rR   Úremoveprefixri   rj   rë   Ú
functionalÚinterpolater?   ÚcatÚexpandÚtoÚdeviceÚ	transposerú   )rY   rÜ   r   rú   r  r!  ry   rx   Úbase_patch_embedsÚother_patch_embedsÚorig_heightÚ
orig_widthrc   rd   Únum_patchesÚmax_num_patchesÚchannelsÚcurr_heightÚ
curr_widthrt   Úmerged_patch_embeddingsrB   rB   rC   Ú_merge_image_patch_embeddingso  sª   	ÿÿÿý
ÿüÿÿÿýüÿÿÿüù	ÿýÿ
õþû
þzDLlavaOnevisionForConditionalGeneration._merge_image_patch_embeddingsÚinputsc                    s®   |d }t |tjƒr7|j\}}}}}| || |||¡}ˆ  ˆ j|¡}	ˆ  |	¡}
|
j||g|
jdd … ¢R Ž S dd„ |D ƒ}t |¡}ˆ  ˆ j|¡}	‡ fdd„t 	|	|¡D ƒS )NrE   r   c                 S   s   g | ]}|j d  ‘qS )r   )r.  )r»   r½   rB   rB   rC   Ú
<listcomp>í  s    zPLlavaOnevisionForConditionalGeneration._process_image_pixels.<locals>.<listcomp>c                    s   g | ]}ˆ   |¡‘qS rB   )r  )r»   rõ   rX   rB   rC   rH  ó  s    ÿÿ)
rÀ   r?   r@   r.  r1  r  r  r  r7  Úsplit)rY   rG  rE   Úbr@  Úcr5   r6   Ústacked_pixel_valuesÚstacked_image_featuresÚstacked_patch_embeddingsÚnum_patches_per_batchrB   rX   rC   Ú_process_image_pixelsÙ  s2   ÿÿÿÿ
ÿ
ÿþz<LlavaOnevisionForConditionalGeneration._process_image_pixelsÚimage_inputc                    s„   |d dkr
|d S ˆ  |¡}| d¡‰ˆd u r6t|d ƒ}ˆjj}|j ‰ ‰t ‡ ‡fdd„t|ƒD ƒ¡‰‡‡fdd„t	|ƒD ƒS )	Nr1   rJ   rM   rH   rE   c                    s   g | ]}ˆ ˆg‘qS rB   rB   )r»   Ú_)Údefault_heightÚdefault_widthrB   rC   rH  	  ó    zOLlavaOnevisionForConditionalGeneration._process_image_input.<locals>.<listcomp>c                    s(   g | ]\}}ˆj ˆ | |ˆjd d‘qS )Úspatial_unpad)rú   r!  )rF  rú   )r»   rü   Úpatch_features_batch)rH   rY   rB   rC   rH    s    úüÿ)
rP  r“   rÃ   rè   rí   rÜ   r?   Ú	as_tensorÚrangeÚ	enumerate)rY   rQ  r   Ú
batch_sizerí   rB   )rS  rT  rH   rY   rC   Ú_process_image_inputú  s   


ÿùz;LlavaOnevisionForConditionalGeneration._process_image_inputc                 C   s(   ||| j jd}|  |¡}|  |¡}|S r  )rè   r  r  Úapply_pooling)rY   r  rE   Úvideo_featuresrB   rB   rC   Ú_video_pixels_to_features  s   þ

z@LlavaOnevisionForConditionalGeneration._video_pixels_to_featuresc           
         sê   |d }t |tjƒrG|j\}}}}}| || |||¡}|  | j|¡‰ ˆ  ||ˆ jd  d¡‰ | jd d d d …f  	|dd¡‰tj
ˆ ˆfddS dd„ |D ƒ}	t 
|¡}|  | j|¡‰ | jd d d d …f ‰‡ ‡fdd„t|	t ˆ |	¡ƒD ƒS )Nr0   r   r$  r*  c                 S   s   g | ]}t |ƒ‘qS rB   )rÃ   )r»   r^   rB   rB   rC   rH  9  rU  zPLlavaOnevisionForConditionalGeneration._process_video_pixels.<locals>.<listcomp>c              	      s6   g | ]\}}t j| d |ˆ jd   d¡ˆfd d‘qS )r   r$  r*  )r?   r7  Úreshaper.  )r»   Ú	num_frameÚembeds©Úembeddings_flatrú   rB   rC   rH  B  s    ùþûÿ)rÀ   r?   r@   r.  r1  r_  r  r`  rú   r8  r7  ÚziprI  )
rY   rG  Úvideo_pixelsÚtotal_videosÚframesrK  r5   r6   Úvideo_pixels_flatÚframes_per_videorB   rc  rC   Ú_process_video_pixels%  s4   ÿÿÿ
ÿ
þøz<LlavaOnevisionForConditionalGeneration._process_video_pixelsrG   rõ   Ústridec                 C   s¦   | j j}|j|j  }}|j\}}}| |||d¡}| dddd¡}|jdd … \}}t || ¡t || ¡g}	t	j
j||	dd}
|
 dddd¡}
|
 |d|¡}
|
S )Nr$  r   r4   r   rG   r(  )Úsizer)  )rè   rí   rÜ   r-  r.  r1  r2  ri   r   rë   r5  r6  )rY   rõ   rl  rí   ry   rx   Úbatch_framesrR  r+  Úscaled_shapeÚimage_featurerB   rB   rC   r]  P  s   ÿz4LlavaOnevisionForConditionalGeneration.apply_poolingc                 K   sn   | j di |¤Ž}|sg S d}|D ]$}|| }|dkr%|  |¡}|t|ƒ7 }|dkr4|  |¡}|t|ƒ7 }q|S )NrB   r]   r^   )r  r\  rž   rk  )rY   rZ   r  Úmultimodal_embeddingsrà   Úmultimodal_inputÚimage_embeddingsÚvideo_embeddingsrB   rB   rC   Úembed_multimodala  s   

€z7LlavaOnevisionForConditionalGeneration.embed_multimodalÚ	input_idsÚ	positionsÚintermediate_tensorsÚinputs_embedsc                 K   s$   |durd}| j j||||d}|S )zîRun forward pass for LlaVA-Onevision.
        Args:
            input_ids: Flattened (concatenated) input_ids corresponding to a
                batch.
            pixel_values_videos: Pixels in each frames for each input videos.
        N)ry  )r  r  )rY   rv  rw  rx  ry  rZ   rö   rB   rB   rC   r÷   x  s   ÿz.LlavaOnevisionForConditionalGeneration.forwardrö   c                 C   s   | j  |¡S rU   )r  Úcompute_logits)rY   rö   rB   rB   rC   rz    s   z5LlavaOnevisionForConditionalGeneration.compute_logitsÚweightsc                 C   s   t | ƒ}|j|| jdS )N)Úmapper)r*   Úload_weightsÚhf_to_vllm_mapper)rY   r{  ÚloaderrB   rB   rC   r}  •  s   z3LlavaOnevisionForConditionalGeneration.load_weights)rG   )NN))r:   r;   r<   r+   r~  Úclassmethodr   rR   r   r   rê   rœ   rN   r  r/   r  r²   r  r    r)   r?   r@   r  rF  rD   rA   rP  r\  r_  rk  r]  r!   ru  r   r÷   rz  r   rž   Úsetr}  ræ   rB   rB   rÌ   rC   rù   Ü  s¤    úÿ !ÿ
þÿ
þþý
üúþýù
øjþ
ý!þ
ýþý
ü+ûþýüûú
ùþ
ý,rù   )Qri   Úcollections.abcr   r   r   Útypingr   r   r   r   r	   r?   Útorch.nnrë   Útransformersr
   r   r   Ú<transformers.models.llava_onevision.modeling_llava_onevisionr   r   Úvllm.configr   Úvllm.config.multimodalr   Ú%vllm.model_executor.layers.activationr   Úvllm.multimodalr   Úvllm.multimodal.inputsr   r   r   Úvllm.multimodal.parser   r   r   r   Úvllm.multimodal.processingr   r   Úvllm.sequencer   Úvllm.utils.tensor_schemar   r   Úclipr    Ú
interfacesr!   r"   r#   Úllavar$   r%   Ú
llava_nextr&   r'   r(   Úsiglipr)   Úutilsr*   r+   r,   r-   r–   r/   rD   rI   rN   r>   rO   rP   rS   rŸ   r¯   ÚModulerç   Úregister_processorrù   rB   rB   rB   rC   Ú<module>   s^   

ÿ
ÿ 
ÿ
/ÿ ý