o
    p’×iÁŽ  ã                   @   s<  d dl mZ d dlmZmZ d dlZd dlZd dlm	Z	 ddl
mZmZ ddlmZ ddlmZ dd	lmZ dd
lmZmZmZmZ eG dd„ deƒƒZG dd„ de	jƒZG dd„ de	jƒZG dd„ de	jƒZG dd„ de	jƒZG dd„ de	jƒZG dd„ de	jƒZG dd„ de ƒZ!G dd„ de	jƒZ"G dd„ de	jƒZ#dS )é    )Ú	dataclass)ÚOptionalÚTupleNé   )Ú
BaseOutputÚis_torch_version)Úrandn_tensoré   )Úget_activation)ÚSpatialNorm)ÚAutoencoderTinyBlockÚUNetMidBlock2DÚget_down_blockÚget_up_blockc                   @   s.   e Zd ZU dZejed< dZeej	 ed< dS )ÚDecoderOutputzÍ
    Output of decoding method.

    Args:
        sample (`torch.Tensor` of shape `(batch_size, num_channels, height, width)`):
            The decoded output sample from the last layer of the model.
    ÚsampleNÚcommit_loss)
Ú__name__Ú
__module__Ú__qualname__Ú__doc__ÚtorchÚTensorÚ__annotations__r   r   ÚFloatTensor© r   r   ú_/home/ubuntu/SoloSpeech/.venv/lib/python3.10/site-packages/diffusers/models/autoencoders/vae.pyr   !   s   
 
r   c                       s|   e Zd ZdZ									dd	ed
edeedf deedf dedededef‡ fdd„Zde	j
de	j
fdd„Z‡  ZS )ÚEncoderaÇ  
    The `Encoder` layer of a variational autoencoder that encodes its input into a latent representation.

    Args:
        in_channels (`int`, *optional*, defaults to 3):
            The number of input channels.
        out_channels (`int`, *optional*, defaults to 3):
            The number of output channels.
        down_block_types (`Tuple[str, ...]`, *optional*, defaults to `("DownEncoderBlock2D",)`):
            The types of down blocks to use. See `~diffusers.models.unet_2d_blocks.get_down_block` for available
            options.
        block_out_channels (`Tuple[int, ...]`, *optional*, defaults to `(64,)`):
            The number of output channels for each block.
        layers_per_block (`int`, *optional*, defaults to 2):
            The number of layers per block.
        norm_num_groups (`int`, *optional*, defaults to 32):
            The number of groups for normalization.
        act_fn (`str`, *optional*, defaults to `"silu"`):
            The activation function to use. See `~diffusers.models.activations.get_activation` for available options.
        double_z (`bool`, *optional*, defaults to `True`):
            Whether to double the number of output channels for the last block.
    r   ©ÚDownEncoderBlock2D©é@   r	   é    ÚsiluTÚin_channelsÚout_channelsÚdown_block_types.Úblock_out_channelsÚlayers_per_blockÚnorm_num_groupsÚact_fnÚdouble_zc
                    s  t ƒ  ¡  || _tj||d dddd| _t g ¡| _|d }
t|ƒD ])\}}|
}|| }
|t	|ƒd k}t
|| j||
| dd|||
d d}| j |¡ q#t|d d|dd|d |d |	d		| _tj|d |dd
| _t ¡ | _|rud| n|}tj|d |ddd| _d| _d S )Nr   r   é   ©Úkernel_sizeÚstrideÚpaddingçíµ ÷Æ°>)
Ú
num_layersr$   r%   Úadd_downsampleÚ
resnet_epsÚdownsample_paddingÚresnet_act_fnÚresnet_groupsÚattention_head_dimÚtemb_channelséÿÿÿÿÚdefault©	r$   r4   r6   Úoutput_scale_factorÚresnet_time_scale_shiftr8   r7   r9   Úadd_attention©Únum_channelsÚ
num_groupsÚepsr	   ©r0   F)ÚsuperÚ__init__r(   ÚnnÚConv2dÚconv_inÚ
ModuleListÚdown_blocksÚ	enumerateÚlenr   Úappendr   Ú	mid_blockÚ	GroupNormÚconv_norm_outÚSiLUÚconv_actÚconv_outÚgradient_checkpointing)Úselfr$   r%   r&   r'   r(   r)   r*   r+   Úmid_block_add_attentionÚoutput_channelÚiÚdown_block_typeÚinput_channelÚis_final_blockÚ
down_blockÚconv_out_channels©Ú	__class__r   r   rF   G   sZ   
ûõ÷

zEncoder.__init__r   Úreturnc                 C   sà   |   |¡}| jrP| jrPdd„ }tddƒr4| jD ]}tjjj||ƒ|dd}qtjjj|| jƒ|dd}n+| jD ]}tjj ||ƒ|¡}q7tjj || jƒ|¡}n| jD ]}||ƒ}qS|  |¡}|  	|¡}|  
|¡}|  |¡}|S )z*The forward method of the `Encoder` class.c                    ó   ‡ fdd„}|S )Nc                     ó   ˆ | Ž S ©Nr   ©Úinputs©Úmoduler   r   Úcustom_forward”   ó   zFEncoder.forward.<locals>.create_custom_forward.<locals>.custom_forwardr   ©rh   ri   r   rg   r   Úcreate_custom_forward“   ó   z.Encoder.forward.<locals>.create_custom_forwardú>=ú1.11.0F©Úuse_reentrant)rI   ÚtrainingrU   r   rK   r   ÚutilsÚ
checkpointrO   rQ   rS   rT   )rV   r   rl   r]   r   r   r   ÚforwardŒ   s*   



ÿÿ



zEncoder.forward)	r   r   r   r    r	   r"   r#   TT)r   r   r   r   Úintr   ÚstrÚboolrF   r   r   ru   Ú__classcell__r   r   r_   r   r   /   s:    öþý
ü
ûúùø	÷Er   c                       sŠ   e Zd ZdZ										dd
ededeedf deedf dedededef‡ fdd„Z	ddej	de
ej	 dej	fdd„Z‡  ZS )ÚDecoderaÂ  
    The `Decoder` layer of a variational autoencoder that decodes its latent representation into an output sample.

    Args:
        in_channels (`int`, *optional*, defaults to 3):
            The number of input channels.
        out_channels (`int`, *optional*, defaults to 3):
            The number of output channels.
        up_block_types (`Tuple[str, ...]`, *optional*, defaults to `("UpDecoderBlock2D",)`):
            The types of up blocks to use. See `~diffusers.models.unet_2d_blocks.get_up_block` for available options.
        block_out_channels (`Tuple[int, ...]`, *optional*, defaults to `(64,)`):
            The number of output channels for each block.
        layers_per_block (`int`, *optional*, defaults to 2):
            The number of layers per block.
        norm_num_groups (`int`, *optional*, defaults to 32):
            The number of groups for normalization.
        act_fn (`str`, *optional*, defaults to `"silu"`):
            The activation function to use. See `~diffusers.models.activations.get_activation` for available options.
        norm_type (`str`, *optional*, defaults to `"group"`):
            The normalization type to use. Can be either `"group"` or `"spatial"`.
    r   ©ÚUpDecoderBlock2Dr    r	   r"   r#   ÚgroupTr$   r%   Úup_block_types.r'   r(   r)   r*   Ú	norm_typec
                    sL  t ƒ  ¡  || _tj||d dddd| _t g ¡| _|dkr!|nd }
t|d d|d|dkr0dn||d ||
|	d		| _	t
t|ƒƒ}|d
 }t|ƒD ].\}}|}|| }|t|ƒd k}t|| jd ||d | d||||
|d}| j |¡ |}qI|dkr…t|d
 |
ƒ| _ntj|d
 |dd| _t ¡ | _tj|d
 |ddd| _d| _d S )Nr:   r   r,   r-   Úspatialr1   r}   r;   r<   r   ©r2   r$   r%   Úprev_output_channelÚadd_upsampler4   r6   r7   r8   r9   r>   r@   rD   F)rE   rF   r(   rG   rH   rI   rJ   Ú	up_blocksr   rO   ÚlistÚreversedrL   rM   r   rN   r   rQ   rP   rR   rS   rT   rU   )rV   r$   r%   r~   r'   r(   r)   r*   r   rW   r9   Úreversed_block_out_channelsrX   rY   Úup_block_typer‚   r\   Úup_blockr_   r   r   rF   Ð   sd   
û÷ô

zDecoder.__init__Nr   Úlatent_embedsra   c                 C   s4  |   |¡}tt| j ¡ ƒƒj}| jrh| jrhdd„ }tddƒrEt	j
jj|| jƒ||dd}| |¡}| jD ]}t	j
jj||ƒ||dd}q4n9t	j
j || jƒ||¡}| |¡}| jD ]}t	j
j ||ƒ||¡}qYn|  ||¡}| |¡}| jD ]}|||ƒ}qv|du rˆ|  |¡}n|  ||¡}|  |¡}|  |¡}|S )z*The forward method of the `Decoder` class.c                    rb   )Nc                     rc   rd   r   re   rg   r   r   ri   )  rj   zFDecoder.forward.<locals>.create_custom_forward.<locals>.custom_forwardr   rk   r   rg   r   rl   (  rm   z.Decoder.forward.<locals>.create_custom_forwardrn   ro   Frp   N)rI   ÚnextÚiterr„   Ú
parametersÚdtyperr   rU   r   r   rs   rt   rO   ÚtorQ   rS   rT   )rV   r   rŠ   Úupscale_dtyperl   r‰   r   r   r   ru     sJ   

ü

üÿ	ÿ

ÿ



zDecoder.forward)	r   r   r{   r    r	   r"   r#   r}   Trd   ©r   r   r   r   rv   r   rw   rF   r   r   r   ru   ry   r   r   r_   r   rz   ¹   sH    öþý
ü
ûúùø	÷Oýþýürz   c                       sD   e Zd ZdZdededdf‡ fdd„Zdejdejfd	d
„Z‡  Z	S )ÚUpSamplea&  
    The `UpSample` layer of a variational autoencoder that upsamples its input.

    Args:
        in_channels (`int`, *optional*, defaults to 3):
            The number of input channels.
        out_channels (`int`, *optional*, defaults to 3):
            The number of output channels.
    r$   r%   ra   Nc                    s0   t ƒ  ¡  || _|| _tj||dddd| _d S )Né   r	   r,   r-   )rE   rF   r$   r%   rG   ÚConvTranspose2dÚdeconv)rV   r$   r%   r_   r   r   rF   i  s   
zUpSample.__init__Úxc                 C   s   t  |¡}|  |¡}|S )z+The forward method of the `UpSample` class.)r   Úrelur•   )rV   r–   r   r   r   ru   s  s   

zUpSample.forward©
r   r   r   r   rv   rF   r   r   ru   ry   r   r   r_   r   r’   ^  s    
þýü
r’   c                       sV   e Zd ZdZ			ddedededed	d
f
‡ fdd„Zddejd	ejfdd„Z‡  Z	S )ÚMaskConditionEncoderz)
    used in AsymmetricAutoencoderKL
    éÀ   é   é   Úin_chÚout_chÚres_chr/   ra   Nc              
      s  t ƒ  ¡  g }|dkr.|d }|d }||kr|}|dkr|}| ||f¡ |d9 }|dksg }|D ]	\}}	| |	¡ q2| |d d ¡ g }
|}tt|ƒƒD ]+}|| }|dks]|dkrk|
 tj||dddd¡ n|
 tj||dddd¡ |}qOtj|
Ž | _d S )Nr,   r	   r:   r   r   r-   r“   )	rE   rF   rN   ÚrangerM   rG   rH   Ú
SequentialÚlayers)rV   r   rž   rŸ   r/   ÚchannelsÚin_ch_r%   Ú_in_chÚ_out_chr¢   ÚlÚout_ch_r_   r   r   rF     s2   
ø
zMaskConditionEncoder.__init__r–   c                 C   sJ   i }t t| jƒƒD ]}| j| }||ƒ}||tt|jƒƒ< t |¡}q	|S )z7The forward method of the `MaskConditionEncoder` class.)r    rM   r¢   rw   ÚtupleÚshaper   r—   )rV   r–   ÚmaskÚoutr§   Úlayerr   r   r   ru   ¤  s   
zMaskConditionEncoder.forward)rš   r›   rœ   rd   r˜   r   r   r_   r   r™   z  s"    ûþýüûú %r™   c                       s    e Zd ZdZ								dd	ed
edeedf deedf dedededef‡ fdd„Z			ddej	de
ej	 de
ej	 de
ej	 dej	f
dd„Z‡  ZS )ÚMaskConditionDecoderaü  The `MaskConditionDecoder` should be used in combination with [`AsymmetricAutoencoderKL`] to enhance the model's
    decoder with a conditioner on the mask and masked image.

    Args:
        in_channels (`int`, *optional*, defaults to 3):
            The number of input channels.
        out_channels (`int`, *optional*, defaults to 3):
            The number of output channels.
        up_block_types (`Tuple[str, ...]`, *optional*, defaults to `("UpDecoderBlock2D",)`):
            The types of up blocks to use. See `~diffusers.models.unet_2d_blocks.get_up_block` for available options.
        block_out_channels (`Tuple[int, ...]`, *optional*, defaults to `(64,)`):
            The number of output channels for each block.
        layers_per_block (`int`, *optional*, defaults to 2):
            The number of layers per block.
        norm_num_groups (`int`, *optional*, defaults to 32):
            The number of groups for normalization.
        act_fn (`str`, *optional*, defaults to `"silu"`):
            The activation function to use. See `~diffusers.models.activations.get_activation` for available options.
        norm_type (`str`, *optional*, defaults to `"group"`):
            The normalization type to use. Can be either `"group"` or `"spatial"`.
    r   r{   r    r	   r"   r#   r}   r$   r%   r~   .r'   r(   r)   r*   r   c	                    sb  t ƒ  ¡  || _tj||d dddd| _t g ¡| _|dkr!|nd }	t|d d|d|dkr0dn||d ||	d	| _	t
t|ƒƒ}
|
d
 }t|ƒD ].\}}|}|
| }|t|ƒd k}t|| jd ||d | d||||	|d}| j |¡ |}qHt||d
 |d d| _|dkrt|d
 |	ƒ| _ntj|d
 |dd| _t ¡ | _tj|d
 |ddd| _d| _d S )Nr:   r   r,   r-   r€   r1   r}   r;   )r$   r4   r6   r=   r>   r8   r7   r9   r   r   )r   rž   rŸ   r@   rD   F)rE   rF   r(   rG   rH   rI   rJ   r„   r   rO   r…   r†   rL   rM   r   rN   r™   Úcondition_encoderr   rQ   rP   rR   rS   rT   rU   )rV   r$   r%   r~   r'   r(   r)   r*   r   r9   r‡   rX   rY   rˆ   r‚   r\   r‰   r_   r   r   rF   Æ  sl   
ûøôý

zMaskConditionDecoder.__init__NÚzÚimager«   rŠ   ra   c                 C   st  |}|   |¡}tt| j ¡ ƒƒj}| jr*| jr*dd„ }tddƒr§t	j
jj|| jƒ||dd}| |¡}|durQ|durQd| | }t	j
jj|| jƒ||dd}	| jD ]8}
|dur|dur|	tt|jƒƒ }tjj||jd	d… d
d}|| |d|   }t	j
jj||
ƒ||dd}qT|dur¦|dur¦|| |	tt|jƒƒ d|   }nöt	j
j || jƒ||¡}| |¡}|durÒ|durÒd| | }t	j
j || jƒ||¡}	| jD ]8}
|dur|dur|	tt|jƒƒ }tjj||jd	d… d
d}|| |d|   }t	j
j ||
ƒ||¡}qÕ|dur)|dur)|| |	tt|jƒƒ d|   }ns|  ||¡}| |¡}|durK|durKd| | }|  ||¡}	| jD ]3}
|dur{|dur{|	tt|jƒƒ }tjj||jd	d… d
d}|| |d|   }|
||ƒ}qN|dur|dur|| |	tt|jƒƒ d|   }|du r¨|  |¡}n|  ||¡}|  |¡}|  |¡}|S )z7The forward method of the `MaskConditionDecoder` class.c                    rb   )Nc                     rc   rd   r   re   rg   r   r   ri   &  rj   zSMaskConditionDecoder.forward.<locals>.create_custom_forward.<locals>.custom_forwardr   rk   r   rg   r   rl   %  rm   z;MaskConditionDecoder.forward.<locals>.create_custom_forwardrn   ro   Frp   Nr,   éþÿÿÿÚnearest)ÚsizeÚmode)rI   r‹   rŒ   r„   r   rŽ   rr   rU   r   r   rs   rt   rO   r   r¯   rw   r©   rª   rG   Ú
functionalÚinterpolaterQ   rS   rT   )rV   r°   r±   r«   rŠ   r   r   rl   Úmasked_imageÚim_xr‰   Úsample_Úmask_r   r   r   ru     s”   

ü
ü
ü"€ÿ
ý
"€

"


zMaskConditionDecoder.forward)r   r   r{   r    r	   r"   r#   r}   )NNNr‘   r   r   r_   r   r®   ¯  sR    ÷þý
ü
ûúùø	÷Tûþýüûúr®   c                       s´   e Zd ZdZ				ddededed	ed
edef‡ fdd„Zde	j
de	j
fdd„Zde	j
de	j
fdd„Zde	jdee	je	jef fdd„Zde	j
deedf de	jfdd„Z‡  ZS )ÚVectorQuantizerz´
    Improved version over VectorQuantizer, can be used as a drop-in replacement. Mostly avoids costly matrix
    multiplications and allows for post-hoc remapping of indices.
    NÚrandomFTÚn_eÚvq_embed_dimÚbetaÚunknown_indexÚsane_index_shapeÚlegacyc                    sæ   t ƒ  ¡  || _|| _|| _|| _t | j| j¡| _| jj	j
 d| j d| j ¡ || _| jd urk|  dt t | j¡¡¡ |  | jjd | _|| _| jdkrY| j| _| jd | _td| j› d| j› d	| j› d
ƒ n|| _|| _d S )Ng      ð¿ç      ð?Úusedr   Úextrar,   z
Remapping z indices to z indices. Using z for unknown indices.)rE   rF   r¾   r¿   rÀ   rÃ   rG   Ú	EmbeddingÚ	embeddingÚweightÚdataÚuniform_ÚremapÚregister_bufferr   ÚtensorÚnpÚloadrÅ   rª   Úre_embedrÁ   ÚprintrÂ   )rV   r¾   r¿   rÀ   rÌ   rÁ   rÂ   rÃ   r_   r   r   rF   Ž  s.   



ÿÿ
zVectorQuantizer.__init__Úindsra   c                 C   s²   |j }t|ƒdksJ ‚| |d d¡}| j |¡}|d d …d d …d f |d k ¡ }| d¡}| d¡dk }| jdkrOt	j
d| j|| j dj|jd||< n| j||< | |¡S )	Nr,   r   r:   )NN.r	   r½   )r´   )Údevice)rª   rM   ÚreshaperÅ   r   ÚlongÚargmaxÚsumrÁ   r   ÚrandintrÑ   rÔ   )rV   rÓ   ÚishaperÅ   ÚmatchÚnewÚunknownr   r   r   Úremap_to_used³  s   "

(

zVectorQuantizer.remap_to_usedc                 C   s”   |j }t|ƒdksJ ‚| |d d¡}| j |¡}| j| jj d kr,d||| jj d k< t |d d d …f |j d dg d d …f d|¡}| |¡S )Nr,   r   r:   )rª   rM   rÕ   rÅ   r   rÑ   r   Úgather)rV   rÓ   rÚ   rÅ   Úbackr   r   r   Úunmap_to_allÁ  s   2
zVectorQuantizer.unmap_to_allr°   c                 C   sN  |  dddd¡ ¡ }| d| j¡}tjt || jj¡dd}|  |¡ |j	¡}d }d }| j
sH| jt | ¡ | d ¡ t || ¡  d ¡ }nt | ¡ | d ¡| jt || ¡  d ¡  }|||  ¡  }|  dddd¡ ¡ }| jd urŒ| |j	d d¡}|  |¡}| dd¡}| jrŸ| |j	d |j	d |j	d ¡}|||||ffS )Nr   r	   r   r,   r:   ©Údim)ÚpermuteÚ
contiguousÚviewr¿   r   ÚargminÚcdistrÈ   rÉ   rª   rÃ   rÀ   ÚmeanÚdetachrÌ   rÕ   rÞ   rÂ   )rV   r°   Úz_flattenedÚmin_encoding_indicesÚz_qÚ
perplexityÚmin_encodingsÚlossr   r   r   ru   Ë  s$   42

 zVectorQuantizer.forwardÚindicesrª   .c                 C   sb   | j d ur| |d d¡}|  |¡}| d¡}|  |¡}|d ur/| |¡}| dddd¡ ¡ }|S )Nr   r:   r   r,   r	   )rÌ   rÕ   rá   rÈ   ræ   rä   rå   )rV   rñ   rª   rí   r   r   r   Úget_codebook_entryí  s   




z"VectorQuantizer.get_codebook_entry)Nr½   FT)r   r   r   r   rv   Úfloatrw   rx   rF   r   Ú
LongTensorrÞ   rá   r   r   ru   rò   ry   r   r   r_   r   r¼   …  s.    øþýüúùø%"
*"r¼   c                   @   sŽ   e Zd Zddejdefdd„Zddeej dejfd	d
„Z	ddd dejfdd„Z
g d¢fdejdeedf dejfdd„Zdejfdd„ZdS )ÚDiagonalGaussianDistributionFr   Údeterministicc                 C   s†   || _ tj|ddd\| _| _t | jdd¡| _|| _t d| j ¡| _t | j¡| _	| jrAtj
| j| j j| j jd | _	| _d S d S )Nr	   r,   râ   g      >Àg      4@ç      à?)rÔ   rŽ   )r   r   Úchunkré   ÚlogvarÚclamprö   ÚexpÚstdÚvarÚ
zeros_likerÔ   rŽ   )rV   r   rö   r   r   r   rF      s   ÿÿz%DiagonalGaussianDistribution.__init__NÚ	generatorra   c                 C   s0   t | jj|| jj| jjd}| j| j|  }|S )N)rÿ   rÔ   rŽ   )r   ré   rª   r   rÔ   rŽ   rü   )rV   rÿ   r   r–   r   r   r   r     s   üz#DiagonalGaussianDistribution.sampleÚotherc                 C   s’   | j r	t dg¡S |d u r%dtjt | jd¡| j d | j g d¢d S dtjt | j|j d¡|j | j|j  d | j |j g d¢d S )Nç        r÷   r	   rÄ   ©r,   r	   r   râ   )rö   r   r   rØ   Úpowré   rý   rù   )rV   r   r   r   r   Úkl  s&   þ
ÿþýüúzDiagonalGaussianDistribution.klr  r   Údims.c                 C   sR   | j r	t dg¡S t dtj ¡}dtj|| j t || j	 d¡| j
  |d S )Nr  g       @r÷   r	   râ   )rö   r   r   rÏ   ÚlogÚpirØ   rù   r  ré   rý   )rV   r   r  Úlogtwopir   r   r   Únll*  s    þz DiagonalGaussianDistribution.nllc                 C   s   | j S rd   )ré   )rV   r   r   r   rµ   3  s   z!DiagonalGaussianDistribution.mode)Frd   )r   r   r   r   r   rx   rF   r   Ú	Generatorr   r  r   rv   r	  rµ   r   r   r   r   rõ   ÿ  s    *	rõ   c                
       s\   e Zd ZdZdededeedf deedf def
‡ fdd	„Zd
ej	dej	fdd„Z
‡  ZS )ÚEncoderTinya’  
    The `EncoderTiny` layer is a simpler version of the `Encoder` layer.

    Args:
        in_channels (`int`):
            The number of input channels.
        out_channels (`int`):
            The number of output channels.
        num_blocks (`Tuple[int, ...]`):
            Each value of the tuple represents a Conv2d layer followed by `value` number of `AutoencoderTinyBlock`'s to
            use.
        block_out_channels (`Tuple[int, ...]`):
            The number of output channels for each block.
        act_fn (`str`):
            The activation function to use. See `~diffusers.models.activations.get_activation` for available options.
    r$   r%   Ú
num_blocks.r'   r*   c                    s¸   t ƒ  ¡  g }t|ƒD ]7\}}|| }	|dkr$| tj||	ddd¡ n| tj|	|	ddddd¡ t|ƒD ]}
| t|	|	|ƒ¡ q6q| tj|d |ddd¡ tj|Ž | _	d| _
d S )	Nr   r   r,   ©r.   r0   r	   F)r.   r0   r/   Úbiasr:   )rE   rF   rL   rN   rG   rH   r    r   r¡   r¢   rU   )rV   r$   r%   r  r'   r*   r¢   rY   Ú	num_blockrA   Ú_r_   r   r   rF   I  s,   
úÿÿ
zEncoderTiny.__init__r–   ra   c                 C   sp   | j r+| jr+dd„ }tddƒrtjjj|| jƒ|dd}|S tjj || jƒ|¡}|S |  | d¡ d¡¡}|S )	z.The forward method of the `EncoderTiny` class.c                    rb   )Nc                     rc   rd   r   re   rg   r   r   ri   r  rj   zJEncoderTiny.forward.<locals>.create_custom_forward.<locals>.custom_forwardr   rk   r   rg   r   rl   q  rm   z2EncoderTiny.forward.<locals>.create_custom_forwardrn   ro   Frp   r,   r	   )	rr   rU   r   r   rs   rt   r¢   ÚaddÚdiv©rV   r–   rl   r   r   r   ru   m  s   
úþzEncoderTiny.forward©r   r   r   r   rv   r   rw   rF   r   r   ru   ry   r   r   r_   r   r  7  s    þý
ü
ûú$r  c                       sd   e Zd ZdZdededeedf deedf deded	ef‡ fd
d„Zdej	dej	fdd„Z
‡  ZS )ÚDecoderTinyaó  
    The `DecoderTiny` layer is a simpler version of the `Decoder` layer.

    Args:
        in_channels (`int`):
            The number of input channels.
        out_channels (`int`):
            The number of output channels.
        num_blocks (`Tuple[int, ...]`):
            Each value of the tuple represents a Conv2d layer followed by `value` number of `AutoencoderTinyBlock`'s to
            use.
        block_out_channels (`Tuple[int, ...]`):
            The number of output channels for each block.
        upsampling_scaling_factor (`int`):
            The scaling factor to use for upsampling.
        act_fn (`str`):
            The activation function to use. See `~diffusers.models.activations.get_activation` for available options.
    r$   r%   r  .r'   Úupsampling_scaling_factorr*   Úupsample_fnc              
      sÆ   t ƒ  ¡  tj||d dddt|ƒg}t|ƒD ]?\}	}
|	t|ƒd k}||	 }t|
ƒD ]}| t	|||ƒ¡ q,|sD| tj
||d¡ |sH|n|}| tj||dd|d¡ qtj|Ž | _d| _d S )Nr   r   r,   r  )Úscale_factorrµ   )r.   r0   r  F)rE   rF   rG   rH   r
   rL   rM   r    rN   r   ÚUpsampler¡   r¢   rU   )rV   r$   r%   r  r'   r  r*   r  r¢   rY   r  r\   rA   r  Úconv_out_channelr_   r   r   rF   —  s.   

þûÿ

zDecoderTiny.__init__r–   ra   c                 C   s~   t  |d ¡d }| jr2| jr2dd„ }tddƒr&t jjj|| jƒ|dd}nt jj || jƒ|¡}n|  |¡}| d¡ 	d	¡S )
z.The forward method of the `DecoderTiny` class.r   c                    rb   )Nc                     rc   rd   r   re   rg   r   r   ri   È  rj   zJDecoderTiny.forward.<locals>.create_custom_forward.<locals>.custom_forwardr   rk   r   rg   r   rl   Ç  rm   z2DecoderTiny.forward.<locals>.create_custom_forwardrn   ro   Frp   r	   r,   )
r   Útanhrr   rU   r   rs   rt   r¢   ÚmulÚsubr  r   r   r   ru   À  s   

zDecoderTiny.forwardr  r   r   r_   r   r  ƒ  s$    þý
ü
ûúùø)r  )$Údataclassesr   Útypingr   r   ÚnumpyrÏ   r   Útorch.nnrG   rs   r   r   Úutils.torch_utilsr   Úactivationsr
   Úattention_processorr   Úunets.unet_2d_blocksr   r   r   r   r   ÚModuler   rz   r’   r™   r®   r¼   Úobjectrõ   r  r  r   r   r   r   Ú<module>   s0     &5 Wz8L