o
    	Û·i<  ã                   @   sT  d Z ddlmZmZmZ ddlZddlmZ ddlmZ ddl	m
Z
 ddlmZ ddlmZmZmZmZ ddlmZ dd	lmZ dd
lmZ ddlmZ e e¡ZG dd„ dejƒZG dd„ dejƒZG dd„ dejƒZ G dd„ dejƒZ!eG dd„ de
ƒƒZ"eG dd„ de"ƒƒZ#eddG dd„ de"ƒƒZ$eddG dd„ de"eƒƒZ%g d ¢Z&dS )!zPyTorch TextNet model.é    )ÚAnyÚOptionalÚUnionN)ÚTensor)ÚPreTrainedModel)ÚACT2CLS)ÚBackboneOutputÚBaseModelOutputWithNoAttentionÚ(BaseModelOutputWithPoolingAndNoAttentionÚ$ImageClassifierOutputWithNoAttention)ÚTextNetConfig)Úlogging)ÚBackboneMixiné   )Úauto_docstringc                       s8   e Zd Zdef‡ fdd„Zdejdejfdd„Z‡  ZS )ÚTextNetConvLayerÚconfigc                    s°   t ƒ  ¡  |j| _|j| _|j| _t|jt	ƒr%|jd d |jd d fn|jd }t
j|j|j|j|j|dd| _t
 |j|j¡| _t
 ¡ | _| jd urVt| j ƒ | _d S d S )Nr   é   é   F)Úkernel_sizeÚstrideÚpaddingÚbias)ÚsuperÚ__init__Ústem_kernel_sizer   Ústem_strider   Ústem_act_funcÚactivation_functionÚ
isinstanceÚtupleÚnnÚConv2dÚstem_num_channelsÚstem_out_channelsÚconvÚBatchNorm2dÚbatch_norm_epsÚ
batch_normÚIdentityÚ
activationr   )Úselfr   r   ©Ú	__class__© úb/home/ubuntu/vllm_env/lib/python3.10/site-packages/transformers/models/textnet/modeling_textnet.pyr   *   s*   

ÿýú

ÿzTextNetConvLayer.__init__Úhidden_statesÚreturnc                 C   s   |   |¡}|  |¡}|  |¡S ©N)r%   r(   r*   )r+   r0   r.   r.   r/   ÚforwardE   s   


zTextNetConvLayer.forward)	Ú__name__Ú
__module__Ú__qualname__r   r   Útorchr   r3   Ú__classcell__r.   r.   r,   r/   r   )   s    r   c                
       sL   e Zd ZdZdededededef
‡ fdd„Zd	ejd
ejfdd„Z	‡  Z
S )ÚTextNetRepConvLayera›  
    This layer supports re-parameterization by combining multiple convolutional branches
    (e.g., main convolution, vertical, horizontal, and identity branches) during training.
    At inference time, these branches can be collapsed into a single convolution for
    efficiency, as per the re-parameterization paradigm.

    The "Rep" in the name stands for "re-parameterization" (introduced by RepVGG).
    r   Úin_channelsÚout_channelsr   r   c           	         sf  t ƒ  ¡  || _|| _|| _|| _|d d d |d d d f}t ¡ | _tj	|||||dd| _
tj||jd| _|d d d df}d|d d d f}|d dkrotj	|||d df||dd| _tj||jd| _nd\| _| _|d dkr•tj	||d|d f||dd| _tj||jd| _nd\| _| _||kr®|dkr®tj||jd| _d S d | _d S )Nr   r   r   F)r:   r;   r   r   r   r   )Únum_featuresÚeps©NN)r   r   Únum_channelsr;   r   r   r!   ÚReLUr   r"   Ú	main_convr&   r'   Úmain_batch_normÚvertical_convÚvertical_batch_normÚhorizontal_convÚhorizontal_batch_normÚrbr_identity)	r+   r   r:   r;   r   r   r   Úvertical_paddingÚhorizontal_paddingr,   r.   r/   r   U   sZ   
 
ú
ú
úÿÿýzTextNetRepConvLayer.__init__r0   r1   c                 C   s†   |   |¡}|  |¡}| jd ur|  |¡}|  |¡}|| }| jd ur0|  |¡}|  |¡}|| }| jd ur>|  |¡}|| }|  |¡S r2   )rA   rB   rC   rD   rE   rF   rG   r   )r+   r0   Úmain_outputsÚvertical_outputsÚhorizontal_outputsÚid_outr.   r.   r/   r3   Ž   s   








zTextNetRepConvLayer.forward)r4   r5   r6   Ú__doc__r   Úintr   r7   r   r3   r8   r.   r.   r,   r/   r9   K   s    "	9r9   c                       s.   e Zd Zdedef‡ fdd„Zdd„ Z‡  ZS )ÚTextNetStager   Údepthc                    sš   t ƒ  ¡  |j| }|j| }t|ƒ}|j| }|j|d  }|g|g|d   }|g| }	g }
t||	||ƒD ]}|
 t|g|¢R Ž ¡ q7t	 
|
¡| _d S )Nr   )r   r   Úconv_layer_kernel_sizesÚconv_layer_stridesÚlenÚhidden_sizesÚzipÚappendr9   r!   Ú
ModuleListÚstage)r+   r   rQ   r   r   Ú
num_layersÚstage_in_channel_sizeÚstage_out_channel_sizer:   r;   rY   Ústage_configr,   r.   r/   r   ¦   s   




zTextNetStage.__init__c                 C   s   | j D ]}||ƒ}q|S r2   )rY   )r+   Úhidden_stateÚblockr.   r.   r/   r3   ·   s   

zTextNetStage.forward)r4   r5   r6   r   rO   r   r3   r8   r.   r.   r,   r/   rP   ¥   s    rP   c                	       sL   e Zd Zdef‡ fdd„Z		ddejdee dee de	fd	d
„Z
‡  ZS )ÚTextNetEncoderr   c                    sF   t ƒ  ¡  g }t|jƒ}t|ƒD ]
}| t||ƒ¡ qt |¡| _	d S r2   )
r   r   rT   rR   ÚrangerW   rP   r!   rX   Ústages)r+   r   rb   Ú
num_stagesÚstage_ixr,   r.   r/   r   ¾   s   

zTextNetEncoder.__init__Nr^   Úoutput_hidden_statesÚreturn_dictr1   c                 C   sL   |g}| j D ]}||ƒ}| |¡ q|s |f}|r||f S |S t||dS )N)Úlast_hidden_stater0   )rb   rW   r	   )r+   r^   re   rf   r0   rY   Úoutputr.   r.   r/   r3   È   s   
zTextNetEncoder.forwardr>   )r4   r5   r6   r   r   r7   r   r   Úboolr	   r3   r8   r.   r.   r,   r/   r`   ½   s    üþýüûr`   c                   @   s&   e Zd ZU eed< dZdZdd„ ZdS )ÚTextNetPreTrainedModelr   ÚtextnetÚpixel_valuesc                 C   s‚   t |tjtjfƒr#|jjjd| jjd |j	d ur!|j	j 
¡  d S d S t |tjƒr=|jj d¡ |j	d ur?|j	j 
¡  d S d S d S )Ng        )ÚmeanÚstdg      ð?)r   r!   ÚLinearr"   ÚweightÚdataÚnormal_r   Úinitializer_ranger   Úzero_r&   Úfill_)r+   Úmoduler.   r.   r/   Ú_init_weightsà   s   
ÿ
ýz$TextNetPreTrainedModel._init_weightsN)r4   r5   r6   r   Ú__annotations__Úbase_model_prefixÚmain_input_namerw   r.   r.   r.   r/   rj   Ú   s
   
 rj   c                       s`   e Zd Z‡ fdd„Ze	d
dedee dee dee	e
ee
 f e	e
 ef fdd	„ƒZ‡  ZS )ÚTextNetModelc                    s8   t ƒ  |¡ t|ƒ| _t|ƒ| _t d¡| _|  	¡  d S )N)r   r   )
r   r   r   Ústemr`   Úencoderr!   ÚAdaptiveAvgPool2dÚpoolerÚ	post_init©r+   r   r,   r.   r/   r   í   s
   

zTextNetModel.__init__Nrl   re   rf   r1   c           	      C   s”   |d ur|n| j j}|d ur|n| j j}|  |¡}| j|||d}|d }|  |¡}|s;||f}|r9||d f S |S t|||rF|d dS d dS )N©re   rf   r   r   )rg   Úpooler_outputr0   )r   Úuse_return_dictre   r|   r}   r   r
   )	r+   rl   re   rf   r^   Úencoder_outputsrg   Úpooled_outputrh   r.   r.   r/   r3   ô   s&   ÿ
ÿ

ýýzTextNetModel.forwardr>   )r4   r5   r6   r   r   r   r   ri   r   r    r   Úlistr
   r3   r8   r.   r.   r,   r/   r{   ë   s    ÿÿÿÿþr{   z‡
    TextNet Model with an image classification head on top (a linear layer on top of the pooled features), e.g. for
    ImageNet.
    )Úcustom_introc                       s\   e Zd Z‡ fdd„Ze				ddeej deej dee	 dee	 de
f
d	d
„ƒZ‡  ZS )ÚTextNetForImageClassificationc                    s|   t ƒ  |¡ |j| _t|ƒ| _t d¡| _t ¡ | _	|jdkr)t 
|jd |j¡nt ¡ | _t | j| j	g¡| _|  ¡  d S )N)r   r   r   éÿÿÿÿ)r   r   Ú
num_labelsr{   rk   r!   r~   Úavg_poolÚFlattenÚflattenro   rU   r)   ÚfcrX   Ú
classifierr€   r   r,   r.   r/   r     s   

(z&TextNetForImageClassification.__init__Nrl   Úlabelsre   rf   r1   c                 C   s¢   |dur|n| j j}| j|||d}|d }| jD ]}||ƒ}q|  |¡}d}	|dur3|  ||| j ¡}	|sI|f|dd…  }
|	durG|	f|
 S |
S t|	||jdS )al  
        labels (`torch.LongTensor` of shape `(batch_size,)`, *optional*):
            Labels for computing the image classification/regression loss. Indices should be in `[0, ...,
            config.num_labels - 1]`. If `config.num_labels == 1` a regression loss is computed (Mean-Square loss), If
            `config.num_labels > 1` a classification loss is computed (Cross-Entropy).

        Examples:
        ```python
        >>> import torch
        >>> import requests
        >>> from transformers import TextNetForImageClassification, TextNetImageProcessor
        >>> from PIL import Image

        >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
        >>> image = Image.open(requests.get(url, stream=True).raw)

        >>> processor = TextNetImageProcessor.from_pretrained("czczup/textnet-base")
        >>> model = TextNetForImageClassification.from_pretrained("czczup/textnet-base")

        >>> inputs = processor(images=image, return_tensors="pt")
        >>> with torch.no_grad():
        ...     outputs = model(**inputs)
        >>> outputs.logits.shape
        torch.Size([1, 2])
        ```Nr‚   r   r   )ÚlossÚlogitsr0   )r   r„   rk   r   r   Úloss_functionr   r0   )r+   rl   r‘   re   rf   Úoutputsrg   Úlayerr“   r’   rh   r.   r.   r/   r3   &  s   !


z%TextNetForImageClassification.forward)NNNN)r4   r5   r6   r   r   r   r7   ÚFloatTensorÚ
LongTensorri   r   r3   r8   r.   r.   r,   r/   r‰     s$    ûþýüûúr‰   zP
    TextNet backbone, to be used with frameworks like DETR and MaskFormer.
    c                       sV   e Zd ZdZ‡ fdd„Ze	ddedee dee de	e
e
 ef fd	d
„ƒZ‡  ZS )ÚTextNetBackboneFc                    s6   t ƒ  |¡ t ƒ  |¡ t|ƒ| _|j| _|  ¡  d S r2   )r   r   Ú_init_backboner{   rk   rU   r<   r€   r   r,   r.   r/   r   b  s
   
zTextNetBackbone.__init__Nrl   re   rf   r1   c           
      C   sÆ   |dur|n| j j}|dur|n| j j}| j|d|d}|r!|jn|d }d}t| jƒD ]\}}|| jv r<||| f7 }q,|sT|f}	|rR|rI|jn|d }|	|f7 }	|	S t||r^|jddS dddS )a€  
        Examples:

        ```python
        >>> import torch
        >>> import requests
        >>> from PIL import Image
        >>> from transformers import AutoImageProcessor, AutoBackbone

        >>> url = "http://images.cocodataset.org/val2017/000000039769.jpg"
        >>> image = Image.open(requests.get(url, stream=True).raw)

        >>> processor = AutoImageProcessor.from_pretrained("czczup/textnet-base")
        >>> model = AutoBackbone.from_pretrained("czczup/textnet-base")

        >>> inputs = processor(image, return_tensors="pt")
        >>> with torch.no_grad():
        >>>     outputs = model(**inputs)
        ```NTr‚   r   r.   )Úfeature_mapsr0   Ú
attentions)	r   r„   re   rk   r0   Ú	enumerateÚstage_namesÚout_featuresr   )
r+   rl   re   rf   r•   r0   r›   ÚidxrY   rh   r.   r.   r/   r3   l  s0   ÿ
€
ýýzTextNetBackbone.forwardr>   )r4   r5   r6   Úhas_attentionsr   r   r   r   ri   r   r    r   r3   r8   r.   r.   r,   r/   r™   Z  s    
ÿÿÿÿþr™   )r™   r{   rj   r‰   )'rN   Útypingr   r   r   r7   Útorch.nnr!   r   Útransformersr   Útransformers.activationsr   Útransformers.modeling_outputsr   r	   r
   r   Ú1transformers.models.textnet.configuration_textnetr   Útransformers.utilsr   Ú!transformers.utils.backbone_utilsr   Úutilsr   Ú
get_loggerr4   ÚloggerÚModuler   r9   rP   r`   rj   r{   r‰   r™   Ú__all__r.   r.   r.   r/   Ú<module>   s<   
"Z%ÿCÿ@