o
    }o™i3<  ã                "   @   sð  d dl Z d dlmZ d dlZd dlmZ d dlmZ G dd„ deƒZG dd„ deƒZ	d	ee d
ee dee dee dee dee de
de
de
de
de
de
de
de
de
dedef"dd„Zd	ee d
ee dee dee dee dee de
de
de
de
de
de
de
de
de
dedef"dd„Zd	ee d
ee dee dee dee dee de
de
de
de
de
de
de
de
de
dedef"dd„Zd	ee d
ee dee dee dee dee de
de
de
de
de
de
de
de
de
dedef"d d!„ZdS )"é    N)ÚList)ÚTensor)Ú	Optimizerc                   @   s$   e Zd ZdZdZdd„ Zdd„ ZdS )ÚMultiTensorApplyFc              
   C   sF   z	dt _|| _W d S  ty" } zdt _|t _W Y d }~d S d }~ww )NTF)r   Ú	availableÚ
chunk_sizeÚImportErrorÚ
import_err)Úselfr   Úerr© r   úH/home/ubuntu/.local/lib/python3.10/site-packages/nemo/core/optim/adan.pyÚ__init__)   s   €þzMultiTensorApply.__init__c                 G   s   || j ||g|¢R Ž S ©N)r   )r
   ÚopÚnoop_flag_bufferÚtensor_listsÚargsr   r   r   Ú__call__1   s   zMultiTensorApply.__call__N)Ú__name__Ú
__module__Ú__qualname__r   Úwarnedr   r   r   r   r   r   r   %   s
    r   c                       sj   e Zd ZdZ								dded	ef‡ fd
d„Z‡ fdd„Ze ¡ dd„ ƒZ	e ¡ ddd„ƒZ
‡  ZS )ÚAdanaß  
    Implements a pytorch variant of Adan
    Adan was proposed in
    Adan: Adaptive Nesterov Momentum Algorithm for
        Faster Optimizing Deep Models[J].arXiv preprint arXiv:2208.06677, 2022.
    https://arxiv.org/abs/2208.06677
    Arguments:
        params (iterable): iterable of parameters to optimize or
            dicts defining parameter groups.
        lr (float, optional): learning rate. (default: 1e-3)
        betas (Tuple[float, float, flot], optional): coefficients used for
            first- and second-order moments. (default: (0.98, 0.92, 0.99))
        eps (float, optional): term added to the denominator to improve
            numerical stability. (default: 1e-8)
        weight_decay (float, optional): decoupled weight decay
            (L2 penalty) (default: 0)
        max_grad_norm (float, optional): value used to clip
            global grad norm (default: 0.0 no clip)
        no_prox (bool): how to perform the decoupled weight decay
            (default: False)
        foreach (bool): if True would use torch._foreach implementation.
            It's faster but uses slightly more memory. (default: True)
        fused (bool, optional): whether fused implementation is used.
            (default: False)
    çü©ñÒMbP?©g\Âõ(\ï?gq=
×£pí?g®Gáz®ï?ç:Œ0âŽyE>ç        FTÚforeachÚfusedc
              
      sð   d|kst d |¡ƒ‚d|kst d |¡ƒ‚d|ks!t d |¡ƒ‚d|d   kr-dk s7n t d |d ¡ƒ‚d|d   krCdk sMn t d	 |d ¡ƒ‚d|d
   krYdk scn t d |d
 ¡ƒ‚t||||||||	d}
tƒ  ||
¡ d S )Nr   zInvalid Max grad norm: {}zInvalid learning rate: {}zInvalid epsilon value: {}r   ç      ð?z%Invalid beta parameter at index 0: {}é   z%Invalid beta parameter at index 1: {}é   z%Invalid beta parameter at index 2: {})ÚlrÚbetasÚepsÚweight_decayÚmax_grad_normÚno_proxr   r   )Ú
ValueErrorÚformatÚdictÚsuperr   )r
   Úparamsr#   r$   r%   r&   r'   r(   r   r   Údefaults©Ú	__class__r   r   r   P   s.   ø
zAdan.__init__c                    s,   t t| ƒ |¡ | jD ]}| dd¡ qd S )Nr(   F)r,   r   Ú__setstate__Úparam_groupsÚ
setdefault)r
   ÚstateÚgroupr/   r   r   r1   t   s   
ÿzAdan.__setstate__c                 C   s`   | j D ]*}d|d< |d D ]}|jr,| j| }t |¡|d< t |¡|d< t |¡|d< qqd S )Nr   Ústepr-   Úexp_avgÚ
exp_avg_sqÚexp_avg_diff)r2   Úrequires_gradr4   ÚtorchÚ
zeros_like)r
   r5   Úpr4   r   r   r   Úrestart_opty   s   

€öþzAdan.restart_optNc                 C   sR  d}|durt  ¡  |ƒ }W d  ƒ n1 sw   Y  | jd dkrs| jd d d j}t jd|d}t j| jd |d}| jD ]}|d D ]}|jdur\|j}| | 	d¡ 
¡ ¡ qHqBt  |¡}t j|||d   d	d
 ¡ }	nd	}	| jD ]-}g }
g }g }g }g }g }|d \}}}d|v r›|d  d7  < nd|d< d	||d   }d	||d   }d	||d   }|d D ]e}|jdu rÃq»|
 |¡ | |j¡ | j| }t|ƒdkrît  |¡|d< t  |¡|d< t  |¡|d< d|vsù|d dkr|j ¡  |	 ¡|d< | |d ¡ | |d ¡ | |d ¡ | |d ¡ q»td#i d|
“d|“d|“d|“d|“d|“d|“d|“d|“d|“d|“dt |¡“d|d “d|d “d|d “d|d “d|	“Ž}|d  rˆ|d! r€t j ¡ r|td#i |¤Ž qxtd"ƒ‚td#i |¤Ž qx|d! rŸt j ¡ r›td#i |¤Ž qxtd"ƒ‚td#i |¤Ž qx|S )$z$Performs a single optimization step.Nr'   r   r-   r!   )Údevicer"   r%   r    )Úmaxr$   r6   r7   r8   r9   Úneg_pre_gradÚgradsÚexp_avgsÚexp_avg_sqsÚexp_avg_diffsÚneg_pre_gradsÚbeta1Úbeta2Úbeta3Úbias_correction1Úbias_correction2Úbias_correction3_sqrtr#   r&   r(   Úclip_global_grad_normr   r   zFused Adan does not support CPUr   )r;   Úenable_gradr.   r2   r?   ÚzerosÚtensorÚgradÚadd_ÚpowÚsumÚsqrtÚclampÚitemÚappendr4   Úlenr<   ÚcloneÚmul_r+   ÚmathÚcudaÚis_availableÚ_fused_adan_multi_tensorr)   Ú_multi_tensor_adanÚ_fused_adan_single_tensorÚ_single_tensor_adan)r
   ÚclosureÚlossr?   Úglobal_grad_normr'   r5   r=   rQ   rM   Úparams_with_gradrB   rC   rD   rE   rF   rG   rH   rI   rJ   rK   Úbias_correction3r4   Úkwargsr   r   r   r6   ‰   sÀ   
ÿ

€ý
 


ÿþýüûúùø	÷
öõ
ôóòñðï


z	Adan.step)r   r   r   r   r   FTFr   )r   r   r   Ú__doc__Úboolr   r1   r;   Úno_gradr>   r6   Ú__classcell__r   r   r/   r   r   5   s(    ö	÷
ö$
r   r-   rB   rC   rD   rE   rF   rG   rH   rI   rJ   rK   rL   r#   r&   r%   r(   rM   c                C   sV  t | ƒD ]¤\}}|| }|| }|| }|| }|| }| |¡ | |¡ | |¡j|d| d | |¡j|d| d | |¡ |¡ | |¡j||d| d | ¡ |  |¡}|| |
 }||	 }|r„| d||  ¡ |j||| d |j||| d n|j||| d |j||| d | d||  ¡ | ¡ j|dd qd S )Nr!   ©Úalpha©Úvalueç      ð¿)Ú	enumerater[   rR   Úaddcmul_rU   Úaddcdiv_Údiv_Úzero_)r-   rB   rC   rD   rE   rF   rG   rH   rI   rJ   rK   rL   r#   r&   r%   r(   rM   ÚiÚparamrQ   r7   r8   r9   Úneg_grad_or_diffÚdenomÚstep_size_diffÚ	step_sizer   r   r   rb   ô   s0   

àrb   c                C   st  t | ƒdkrd S t ||¡ t ||¡ t ||¡ tj||d| d t ||¡ tj||d| d t ||¡ t ||¡ t ||¡ tj|||d| d t |¡}t ||¡ t ||¡ || |
 }||	 }|rt | d||  ¡ tj| ||| d tj| ||| d ntj| ||| d tj| ||| d t | d||  ¡ t |¡ tj||dd d S )Nr   r!   rm   ro   rq   )	rY   r;   Ú_foreach_mul_Ú_foreach_add_Ú_foreach_addcmul_Ú_foreach_sqrtÚ_foreach_div_Ú_foreach_addcdiv_Ú_foreach_zero_)r-   rB   rC   rD   rE   rF   rG   rH   rI   rJ   rK   rL   r#   r&   r%   r(   rM   rz   r{   r|   r   r   r   r`   +  s4   

r`   c                C   sl   dd l }tdƒ}tj dg¡}||j|| |||||g||||	|
||||||ƒ t |¡ tj||dd d S )Nr   i   rq   rm   )Ú
fused_adanr   r;   r]   Ú	IntTensorÚadan_multi_tensorrƒ   r~   )r-   rB   rC   rD   rE   rF   rG   rH   rI   rJ   rK   rL   r#   r&   r%   r(   rM   r„   Úmulti_tensor_applierÚ_dummy_overflow_bufr   r   r   r_   f  s*   ò
r_   c                C   sÂ   t | ƒD ]Z\}}|j ¡ }|j}|| }|| }|| }|| }|| }tj |j¡" dd l}| |||||||||||	|
||||||¡ W d   ƒ n1 sPw   Y  | ¡ j	|dd qd S )Nr   rq   rm   )
rr   ÚdataÚfloatr;   r]   r?   r„   Úadan_single_tensorrv   rR   )r-   rB   rC   rD   rE   rF   rG   rH   rI   rJ   rK   rL   r#   r&   r%   r(   rM   rw   rx   Úp_data_fp32Úout_prQ   r7   r8   r9   Úneg_gradr„   r   r   r   ra   ’  sB   
îýára   )r\   Útypingr   r;   r   Útorch.optim.optimizerr   Úobjectr   r   rŠ   rj   rb   r`   r_   ra   r   r   r   r   Ú<module>   s(   @ÿþýüûúø	÷
öõôóòñðï
î7ÿþýüûúø	÷
öõôóòñðï
î;ÿþýüûúø	÷
öõôóòñðï
î,ÿþýüûúø	÷
öõôóòñðïî