o
    NÆÏiØ<  ã                   @   s¬   d dl Z d dlZd dlmZ d dlmZmZmZ d dlm	Z	m
Z
 d dlmZ d dlmZmZmZmZmZmZ d dlmZ dd	lmZ dd
lmZmZmZ G dd„ de
ƒZdS )é    N)ÚConv1D)Úis_bnb_4bit_availableÚis_bnb_availableÚis_gptqmodel_available)Ú
LoraConfigÚ	LoraModel)ÚBaseTunerLayer)Ú5TRANSFORMERS_MODELS_TO_ADALORA_TARGET_MODULES_MAPPINGÚ_freeze_adapterÚ_get_submodulesÚget_auto_gptq_quant_linearÚget_gptqmodel_quant_linearÚget_quantization_config)Úgather_params_ctxé   )ÚSVDQuantLinear)ÚAdaLoraLayerÚRankAllocatorÚ	SVDLinearc                       sx   e Zd ZdZeZ‡ fdd„Zdeddf‡ fdd„Zd	d
„ Z	e
ddd„ƒZdd„ Zdd„ Zdd„ Zdd„ Zdd„ Z‡  ZS )ÚAdaLoraModelaè  
    Creates AdaLoRA (Adaptive LoRA) model from a pretrained transformers model. Paper:
    https://openreview.net/forum?id=lq62uWRJjiY

    Args:
        model ([`transformers.PreTrainedModel`]): The model to be adapted.
        config ([`AdaLoraConfig`]): The configuration of the AdaLora model.
        adapter_name (`str`): The name of the adapter, defaults to `"default"`.
        low_cpu_mem_usage (`bool`, `optional`, defaults to `False`):
            Create empty adapter weights on meta device. Useful to speed up the loading process.

    Returns:
        `torch.nn.Module`: The AdaLora model.

    Example::

        >>> from transformers import AutoModelForSeq2SeqLM >>> from peft import LoraConfig, AdaLoraModel, AdaLoraConfig
        >>> config = AdaLoraConfig(
                peft_type="ADALORA", task_type="SEQ_2_SEQ_LM", init_r=12, lora_alpha=32, target_modules=["q", "v"],
                lora_dropout=0.01,
            )
        >>> model = AutoModelForSeq2SeqLM.from_pretrained("t5-base") >>> model = AdaLoraModel(model, config, "default")

    **Attributes**:
        - **model** ([`transformers.PreTrainedModel`]) -- The model to be adapted.
        - **peft_config** ([`AdaLoraConfig`]): The configuration of the AdaLora model.
    c                    sˆ   t ƒ j|||fi |¤Ž d}| j ¡ D ]	}|js|d7 }q|dkr%tdƒ‚| j| jr3t| j|ƒ d S || _t	| j| j| | jƒ| _
d S )Nr   r   z›AdaLoraModel supports only 1 trainable adapter. When using multiple adapters, set inference_mode to True for all adapters except the one you want to train.)ÚsuperÚ__init__Úpeft_configÚvaluesÚinference_modeÚ
ValueErrorr
   ÚmodelÚtrainable_adapter_namer   Úrankallocator)Úselfr   ÚconfigÚadapter_nameÚkwargsÚtraininable_mode_counter©Ú	__class__© úM/home/ubuntu/.local/lib/python3.10/site-packages/peft/tuners/adalora/model.pyr   E   s   €ÿzAdaLoraModel.__init__r    ÚreturnNc                    sL   t ƒ  |¡ d}| j ¡ D ]	}|js|d7 }q|dkr$t| jj› dƒ‚dS )zÌ
        A helper method to check the config when a new adapter is being added.

        Raise a ValueError if there is something wrong with the config or if it conflicts with existing adapters.

        r   r   z supports only 1 trainable adapter. When using multiple adapters, set inference_mode to True for all adapters except the one you want to train.N)r   Ú_check_new_adapter_configr   r   r   r   r%   Ú__name__)r   r    r#   Úconfig_r$   r&   r'   r)   Y   s   €ÿÿz&AdaLoraModel._check_new_adapter_configc              
   C   sð   |j |j|j|j|jt| jddƒt| jddƒdœ}|d s!|d r(tƒ s(tdƒ‚t	| jdd	}|d ur7||d
< t
|tƒsit| jdƒrF| jjnd }	| j|||fd|	i|¤Ž}
|| jvr_|
 d¡ |  |||
|¡ d S | ||j |j|j|j¡ d S )NÚis_loaded_in_8bitFÚis_loaded_in_4bit)ÚrÚ
lora_alphaÚlora_dropoutÚfan_in_fan_outÚinit_lora_weightsÚloaded_in_8bitÚloaded_in_4bitr3   r4   z†To use AdaLora with 8-bit quantization, please install the `bitsandbytes` package. You can install it with `pip install bitsandbytes`.Úgptq)ÚmethodÚgptq_quantization_configÚhf_device_mapÚ
device_map)Úinit_rr/   r0   r1   r2   Úgetattrr   r   ÚImportErrorr   Ú
isinstancer   Úhasattrr8   Ú_create_new_moduleÚactive_adaptersÚrequires_grad_Ú_replace_moduleÚupdate_layer)r   Úlora_configr!   ÚtargetÚtarget_nameÚparentÚcurrent_keyr"   Úquantization_configr9   Ú
new_moduler&   r&   r'   Ú_create_and_replacen   s8   
ù	ÿ


ûz AdaLoraModel._create_and_replacec                 K   sÄ  t ƒ rdd l}ddlm} tƒ rddlm} | dd ¡}tƒ r&t||d}	nt	|ƒ}	| 
dd¡}
| 
d	d¡}t|tƒr@| ¡ }n|}|
rdt||jjƒrd| |jj|jj|jd
œ¡ |||fi |¤Ž}|S |rtƒ rt||jjƒr| ¡ }| |j|jj|jjdœ¡ |||fi |¤Ž}|S |	d ur¡t||	ƒr¡t||fi |¤Ž}|S t|tjjƒr¹|d r¸t d¡ d |d< | _ nt|t!ƒrÏ|d sÎt d¡ d |d< | _ nt"d|› dƒ‚t#||fi |¤Ž}|S )Nr   r   )ÚSVDLinear8bitLt)ÚSVDLinear4bitr7   )r9   r3   Fr4   )Úhas_fp16_weightsÚ	thresholdÚindex)Úcompute_dtypeÚcompress_statisticsÚ
quant_typer1   zjfan_in_fan_out is set to True but the target module is `torch.nn.Linear`. Setting fan_in_fan_out to False.zafan_in_fan_out is set to False but the target module is `Conv1D`. Setting fan_in_fan_out to True.TzTarget module zP is not supported. Currently, only `torch.nn.Linear` and `Conv1D` are supported.)$r   ÚbitsandbytesÚbnbrL   r   rM   Úgetr   r   r   Úpopr=   r   Úget_base_layerÚnnÚLinear8bitLtÚupdateÚstaterN   rO   rP   Ú
Linear4bitÚcopyrQ   ÚweightrR   rS   r   ÚtorchÚLinearÚwarningsÚwarnr1   r   r   r   )rD   r!   rE   r9   r"   rU   rL   rM   r7   ÚQuantLinearr3   r4   Útarget_base_layerrJ   Úfourbit_kwargsr&   r&   r'   r?   ›   sn   

ýÿ#Þýÿèëÿ€
ÿ€
ÿzAdaLoraModel._create_new_modulec              	   O   sf  | j j|i |¤Ž}t|dd ƒd ur±t|jtjƒr±| j| j j	}|dkr't
dƒ‚d}d}| j  ¡ D ]l\}}d|v s<d|v rœ| j|v rœ|jt dg¡krot|| d d|v rZ||j n|j| }	W d   ƒ n1 siw   Y  nd|v rx||j n|j| }	tj|	 ¡ dt |	¡iŽ}
d|
_|d	7 }|tj|	|
 d
d7 }q0|dkr¦|| }nd}| j|| 7  _|S )NÚlossr   z*orth_reg_weight should be greater than 0. Úlora_AÚlora_B)Ú
fwd_moduleÚoutFr   Úfro)Úp)r   Úforwardr;   r=   rg   r`   ÚTensorr   r   Úorth_reg_weightr   Únamed_parametersÚshapeÚSizer   ÚTÚeyeÚsizeÚ
empty_likeÚrequires_gradÚnorm)r   Úargsr"   Úoutputsrp   Ú	regu_lossÚ	num_paramÚnrm   Úpara_covÚIr&   r&   r'   rn   á   s2   ÿ€€
zAdaLoraModel.forwardc              	   C   sn  | j | }| ¡ D ]«\}}t|tƒrt|ƒ}nt|tjƒr)| d¡}| ¡  ¡ }nt	dƒ‚||v r=d 
| d¡dd… ¡nd 
| d¡dd… ¡}t| j|ƒ\}}	}|	j| | }
|	j| | }|	j| d d …|f }|	j| }|	 |||j|j|j¡ t ¡ , |dkr¥|	j|  |
¡ |	j|  |¡ |	j|  |¡ |	j|  |¡ W d   ƒ n1 s¯w   Y  q	d S )NéÿÿÿÿzUnexpected type of rank_idxÚ.r   éþÿÿÿ)r   Úitemsr=   ÚlistÚsumr`   ro   ÚviewÚitemr   ÚjoinÚsplitr   r   Úlora_Erh   ri   ÚranknumrC   r/   r0   r2   Úno_gradÚcopy_)r   Úrank_patternr!   rD   ÚnameÚrank_idxÚrankÚkeyÚ_rE   Úlora_E_weightsÚlora_A_weightsÚlora_B_weightsrŒ   r&   r&   r'   Úresize_modules_by_rank_patternÿ   s>   



8
û
€ú€ëz+AdaLoraModel.resize_modules_by_rank_patternc           
      C   sÜ   |  ¡ D ]g\}}t|ƒ}||v rd | d¡dd… ¡nd | d¡dd… ¡}dD ]@}d|› d|› d|› }	|dkrQ|||	 jd krJ||	 | n||	 ||	< q*|||	 jd krd||	 d d …|f n||	 ||	< q*q|S )	Nr‚   r   rƒ   r   )r‹   rh   ri   zbase_model.model.ri   r   )r„   r†   r‰   rŠ   rr   )
r   r   Ú
state_dictr!   r   r‘   r’   ÚprefixÚlayerr“   r&   r&   r'   Ú!resize_state_dict_by_rank_pattern  s   8$ÿ,ÿù
z.AdaLoraModel.resize_state_dict_by_rank_patternc                 C   s¨   | j | j }||j|j k r!| j | j|¡\}}|r||_dS dS ||j|j kr?| jj| j|dd\}}||_| j ¡  dS ||j|j krR| j 	| j|j¡ dS dS )aM  
        This method updates Adalora budget and mask.

        This should be called in every training step after `loss.backward()` and before `zero_grad()`.

        `tinit`, `tfinal` and `deltaT` are handled with in the method.

        Args:
            global_step (`int`): The current training step, it is used to calculate adalora budget.

        Example:

        ```python
        >>> loss = model(**input).loss
        >>> loss.backward()
        >>> optimizer.step()
        >>> model.base_model.update_and_allocate(i_step)
        >>> optimizer.zero_grad()
        ```
        T)Ú
force_maskN)
r   r   Ú
total_stepÚtfinalr   Úupdate_and_allocater   r   Ú	reset_iptÚmask_using_rank_pattern)r   Úglobal_steprD   r”   r   r&   r&   r'   r    .  s   
ÿz AdaLoraModel.update_and_allocatec                 O   s   t | jj› dƒ‚)z;This method is not supported for AdaLoRA, use LoRA instead.z. does not support add_weighted_adapter method.)Ú	TypeErrorr%   r*   )r   rz   r"   r&   r&   r'   Úadd_weighted_adapterX  s   z!AdaLoraModel.add_weighted_adapter)N)r*   Ú
__module__Ú__qualname__Ú__doc__r	   Útarget_module_mappingr   r   r)   rK   Ústaticmethodr?   rn   r˜   rœ   r    r¥   Ú__classcell__r&   r&   r$   r'   r   %   s    -E*r   )rb   r`   Útransformers.pytorch_utilsr   Úpeft.import_utilsr   r   r   Úpeft.tuners.lorar   r   Úpeft.tuners.tuners_utilsr   Ú
peft.utilsr	   r
   r   r   r   r   Úpeft.utils.integrationsr   r5   r   r›   r   r   r   r   r&   r&   r&   r'   Ú<module>   s    