o
    NÆÏi)<  ã                   @   sª   d dl Z d dlmZ d dlZd dlmZ d dlm  mZ d dl	m
Z
 d dlmZmZ d dlmZ ddlmZ G dd	„ d	ejjƒZG d
d„ deƒZG dd„ dejeƒZdS )é    N)ÚOptional)ÚConv1D)ÚBaseTunerLayerÚcheck_adapters_to_merge)Ú	transposeé   )Ú
BufferDictc                   @   s$   e Zd Zedd„ ƒZedd„ ƒZdS )ÚUniqueBaseGradc                 C   s4   |d d …d d …d f | |d  }|   |||¡ |S )N©N)Úsave_for_backward)ÚctxÚ
randlora_AÚrandlora_lambdaÚrandlora_gammaÚout© r   úN/home/ubuntu/.local/lib/python3.10/site-packages/peft/tuners/randlora/layer.pyÚforward   s   "zUniqueBaseGrad.forwardc                 C   s^   | j \}}}| |j¡| |j¡| |j¡}}}t d|||¡}t d|||¡}d ||fS )Nzkbj,kvj,bj->kbzkbj,kvj,kb->bj)Úsaved_tensorsÚtoÚdtypeÚtorchÚeinsum)r   Úgrad_outputr   r   r   Úgrad_randlora_lambdaÚgrad_randlora_gammar   r   r   Úbackward%   s   


ý
zUniqueBaseGrad.backwardN)Ú__name__Ú
__module__Ú__qualname__Ústaticmethodr   r   r   r   r   r   r	      s
    
r	   c                   @   sX   e Zd ZdZdZdejfdd„Zede	fdd„ƒZ
		dd
edede	fdd„Zdd„ ZdS )ÚRandLoraLayer)r   r   )r   Ú
randlora_BÚ
base_layerc                 K   s¸   || _ i | _i | _t i ¡| _t i ¡| _t i ¡| _d | _	d | _
d| _g | _d| _|  ¡ }t|tjƒr<|j|j}}nt|tƒrQt|jdƒrK|jjn|jj\}}|| _|| _|| _d S )NFTÚds_shape)r#   ÚrÚscalingÚnnÚ
ModuleDictÚrandlora_dropoutÚParameterDictr   r   r   r"   Ú_disable_adaptersÚmerged_adaptersÚcast_input_dtype_enabledÚget_base_layerÚ
isinstanceÚLinearÚin_featuresÚout_featuresr   ÚhasattrÚweightr$   ÚshapeÚkwargs)Úselfr#   r6   r1   r2   r   r   r   Ú__init__7   s(   
ÿ
zRandLoraLayer.__init__Úreturnc                 C   s
   t | jƒS r
   )Úboolr,   )r7   r   r   r   ÚmergedY   s   
zRandLoraLayer.mergedFr   r"   Úinference_modec	                 K   sP  |dkrt d|› ƒ‚|| j|< |dkrtj|d}
nt ¡ }
| j t ||
i¡¡ t| j	| j
ƒ| }| ¡ r;t|ƒnt|ƒd | _tjt || j¡dd| j|< tjt | jt| j
| j	ƒ¡t| j
| j	ƒ dd| j|< || | j|< || _|| _||vrt| jƒdk r‰t dƒ‚t| j ¡ ƒd }t| j ¡ ƒd }d	}t| j	| j
ƒt| j	| j
ƒ}}|jd |k r¿t | d
|jd |¡ƒ‚|jd |k rÒt | d|jd |¡ƒ‚d}|jd | j| k rít | d|jd | j| ¡ƒ‚|jd | j| k rt | d
|jd | j| ¡ƒ‚|| j|< || j|< |r|  |¡ |  |¡ | j| j |d d S )Nr   z?`r` should be a positive integer value but the value passed is ç        )Úpé   T)Úrequires_gradzfThe `randlora_A` and `randlora_B` buffers are empty. This should not happen. Please report this issue.z¨{} has a size of {} but {} or greater is required; this probably happened because an additional RandLora adapter was added after the first one with incompatible shapes.r"   éÿÿÿÿr   z×{} has a size of {} but {} or greater is required; this probably happened because an additional RandLora adapter with a lower rank was added after the first one; loading the adapters in reverse order may solve this.)r<   )!Ú
ValueErrorr%   r'   ÚDropoutÚIdentityr)   Úupdater(   Úminr1   r2   Ú
is_integerÚintÚ	num_basesÚ	Parameterr   Úrandnr   ÚonesÚmaxr   r&   r   r"   ÚlenÚlistÚvaluesr5   ÚformatÚreset_randlora_parametersÚ%_move_adapter_to_device_of_base_layerÚset_adapterÚactive_adapters)r7   Úadapter_namer   r"   r%   Úrandlora_alphar)   Úinit_weightsr<   r6   Úrandlora_dropout_layerrI   Úrandlora_A_paramÚrandlora_B_paramÚ
error_tmplÚmax_dimÚmin_dimr   r   r   Úupdate_layer]   sZ   
ÿý
ÿÿÿ



zRandLoraLayer.update_layerc                 C   sv   || j  ¡ v r9t ¡ $ tj | j | ¡ tj | j| dt	| j| j
ƒ ¡ W d   ƒ d S 1 s2w   Y  d S d S )Nr?   )r   Úkeysr   Úno_gradr'   ÚinitÚzeros_Ú	constant_r   rM   r5   )r7   rV   r   r   r   rR   ­   s   
&"þÿz'RandLoraLayer.reset_randlora_parametersN)F)r   r   r   Úadapter_layer_namesÚother_param_namesr'   ÚModuler8   Úpropertyr:   r;   r   r_   rR   r   r   r   r   r!   2   s    "÷ýü	
÷Pr!   c                       sÒ   e Zd Z						d!dedededed	ed
ededededdf‡ fdd„Zd"dede	e
e  ddfdd„Zd#dd„Zd$deejejf fdd„Zdejfdd„Zdejdejfdd„Zdef‡ fdd „Z‡  ZS )%r0   r   r=   FTr   r"   rV   r%   rW   r)   Úfan_in_fan_outÚis_target_conv_1d_layerrX   r9   Nc              	      sP   t tj| ƒ ¡  tj| |fi |¤Ž || _|| _|  |||||||
¡ |	| _d S r
   )	Úsuperr'   r0   r8   r!   ri   Ú_active_adapterr_   rj   )r7   r#   r   r"   rV   r%   rW   r)   ri   rj   rX   r6   ©Ú	__class__r   r   r8   ¶   s   
zLinear.__init__Ú
safe_mergeÚadapter_namesc                 C   s¶   t | |ƒ}|s	dS |D ]M}|| j ¡ v rX|  ¡ }|jj}|rB|jj ¡ }||  |¡7 }t	 
|¡ ¡ s:td|› dƒ‚| |¡|j_n|  |¡}|j j| |¡7  _| j |¡ qdS )a^  
        Merge the active adapter weights into the base weights

        Args:
            safe_merge (`bool`, *optional*):
                If True, the merge operation will be performed in a copy of the original weights and check for NaNs
                before merging the weights. This is useful if you want to check if the merge operation will produce
                NaNs. Defaults to `False`.
            adapter_names (`list[str]`, *optional*):
                The list of adapter names that should be merged. If None, all active adapters will be merged. Defaults
                to `None`.
        Nz1NaNs detected in the merged weights. The adapter z seems to be broken)r   r   r`   r.   r4   r   ÚdataÚcloneÚget_delta_weightr   ÚisfiniteÚallrB   r   r,   Úappend)r7   ro   rp   Úactive_adapterr#   Ú
orig_dtypeÚorig_weightsÚdelta_weightr   r   r   ÚmergeÌ   s(   

ÿ
€êzLinear.mergec                 C   s€   | j s
t d¡ dS t| jƒdkr>|  ¡ }|jj}| j ¡ }|| j	 
¡ v r5|  |¡}|j j| |¡8  _t| jƒdksdS dS )zW
        This method unmerges all merged adapter layers from the base weights.
        z Already unmerged. Nothing to do.Nr   )r;   ÚwarningsÚwarnrN   r,   r.   r4   r   Úpopr   r`   rs   rq   r   )r7   r#   rx   rw   rz   r   r   r   Úunmergeö   s   


úzLinear.unmergec                 C   s,  | j | }| j| }|du r|j}|j}|jdko"|tjkp"|tjk}| j|  	|¡}| j
|  	|¡}|rE| ¡ }| ¡ }| ¡ }| ¡ }t| j| jƒt| j| jƒ}	}
|dd…d| j…d|	…f  	|¡}|d|
…d| j…dd…f  	|¡}|jdd}t |||¡jdd}|	| jkr||fS |j|jfS )a4  
        Performs scaling on the smallest random base (randlora_A) and returns randlora_A and randlora_B in the correct
        order to fit the target layers' dimensions

        Args:
            adapter (str):
                The name of the adapter for which the delta weight should be computed.
        NÚcpur?   )Ú	start_dim)Úend_dim)r   r"   Údevicer   Útyper   Úfloat16Úbfloat16r   r   r   ÚfloatrF   r2   r1   rM   rI   Úflattenr	   ÚapplyÚT)r7   Úadapterrƒ   r   r"   r   Úcast_to_fp32r   r   r^   r]   Úsliced_AÚsliced_BÚupdate_BÚupdate_Ar   r   r   Úget_scaled_bases  s*   


""
zLinear.get_scaled_basesc                 C   s:   |   |¡\}}|j|j j}t|| jƒ}| j| }|| S )zÂ
        Compute the delta weight for the given adapter.

        Args:
            adapter (str):
                The name of the adapter for which the delta weight should be computed.
        )r‘   rŠ   r   ri   r&   )r7   r‹   r   r   rE   Úoutput_tensorr&   r   r   r   rs   6  s
   	
zLinear.get_delta_weightÚxc                 O   sê   |j }| jr| jr|  ¡  | j|g|¢R i |¤Ž}nT| jr*| j|g|¢R i |¤Ž}nD| j|g|¢R i |¤Ž}| jD ]4}|| j ¡ vrCq9| j| }| j	||j
d\}}	| |	j ¡}| j| }
|t t ||ƒ|¡|	¡|
  }q9| |¡}|S )N)rƒ   )r   Údisable_adaptersr;   r   r#   rU   r   r`   r)   r‘   rƒ   r   r&   ÚFÚlinear)r7   r“   Úargsr6   Úprevious_dtypeÚresultrw   Údropoutr   r   r&   r   r   r   r   G  s$   


"
zLinear.forwardc                    s   t ƒ  ¡ }d| S )Nz	randlora.)rk   Ú__repr__)r7   Úreprm   r   r   r›   \  s   
zLinear.__repr__)r   r   r=   FFT)FN)r9   Nr
   )r   r   r   r   ÚstrrH   r‡   r:   r8   r   rO   r{   r   Útupler   ÚTensorr‘   rs   r   r›   Ú__classcell__r   r   rm   r   r0   ´   sD    õýüûúùø	÷
öõó 
*0r0   )r|   Útypingr   r   Útorch.nnr'   Útorch.nn.functionalÚ
functionalr•   Útransformers.pytorch_utilsr   Úpeft.tuners.tuners_utilsr   r   Úpeft.utils.otherr   Ú_buffer_dictr   ÚautogradÚFunctionr	   r!   r0   r   r   r   r   Ú<module>   s    