o
    ß—¦i  ã                   @   sv   U d dl mZmZmZmZ d dlZd dlm  mZ	 d dlm
Z
 d dlmZ g Zee ed< ejjG dd„ dƒƒZdS )é    )ÚDictÚListÚOptionalÚTupleN)ÚTensor)Ú2_scripted_functional_optimizer_deprecation_warningÚ__all__c                   @   sŠ   e Zd Z									ddee dedeeef d	ed
edededededefdd„Zdede	e fdd„Z
dee	e  fdd„ZdS )Ú_FunctionalAdamçü©ñÒMbP?©gÍÌÌÌÌÌì?g+‡ÙÎ÷ï?ç:Œ0âŽyE>ç        FÚparamsÚlrÚbetasÚepsÚweight_decayÚamsgradÚmaximizeÚforeachÚfusedÚ_allow_empty_param_listc                 C   s   t dd d|kstd|› ƒ‚d|kstd|› ƒ‚d|d   kr'dk s1n td|d › ƒ‚d|d	   kr=dk sGn td
|d	 › ƒ‚d|ksRtd|› ƒ‚|||d |d	 |dœ| _|| _|| _|| _|	| _tj 	t
tjt
ttjf f i ¡| _t|ƒdkr‰|
s‰tdƒ‚d|i| _d S )Né   )Ú
stacklevelr   zInvalid learning rate: zInvalid epsilon value: r   g      ð?z#Invalid beta parameter at index 0: é   z#Invalid beta parameter at index 1: zInvalid weight_decay value: )r   r   Úbeta1Úbeta2r   z%optimizer got an empty parameter listr   )r   Ú
ValueErrorÚdefaultsr   r   r   r   ÚtorchÚjitÚannotater   r   ÚstrÚstateÚlenÚparam_group)Úselfr   r   r   r   r   r   r   r   r   r   © r'   úe/home/ubuntu/transcripts/venv/lib/python3.10/site-packages/torch/distributed/optim/functional_adam.pyÚ__init__   s2   
û$z_FunctionalAdam.__init__ÚparamÚgradc                 C   sv  g }g }g }g }g }g }t  |¡}	|dur| |¡ | |¡ || jvrVi | j|< | j| }
t  d¡|
d< t j|t jd|
d< t j|t jd|
d< | jrVt j|t jd|
d< | j| }
| |
d ¡ | |
d ¡ | jrs| |
d ¡ | |
d ¡ t  ¡ 3 t	j
||||||| j|	| j| jd | jd	 | jd
 | jd | jd | j| jddd W d  ƒ dS 1 s´w   Y  dS )zo
        Similar to step, but operates on a single parameter and optionally a
        gradient tensor.
        Nr   Ústep©Úmemory_formatÚexp_avgÚ
exp_avg_sqÚmax_exp_avg_sqr   r   r   r   r   ©r   Úhas_complexr   r   r   r   r   r   r   r   Ú
grad_scaleÚ	found_inf)r   Ú
is_complexÚappendr#   ÚtensorÚ
zeros_likeÚpreserve_formatr   Úno_gradÚFÚadamr   r   r   r   )r&   r*   r+   Úparams_with_gradÚgradsÚexp_avgsÚexp_avg_sqsÚmax_exp_avg_sqsÚstate_stepsr3   r#   r'   r'   r(   Ú
step_paramG   sh   




ÿ
ÿ
ÿ

î"ÿz_FunctionalAdam.step_paramÚ	gradientsc                 C   sØ  | j d }g }g }g }g }g }g }d}	t|ƒt|ƒkr.tddt|ƒ› d dt|ƒ›  ƒ‚t| j d |ƒD ]t\}
}|d urª|	t |
¡O }	| |
¡ | |¡ |
| jvr†i | j|
< | j|
 }t d¡|d< tj	|
tj
d	|d
< tj	|
tj
d	|d< | jr†tj	|
tj
d	|d< | j|
 }| |d
 ¡ | |d ¡ | jr£| |d ¡ | |d ¡ q6t ¡ 3 tj||||||| j|	| j| jd | jd | jd | jd | jd | j| jd d d W d   ƒ d S 1 såw   Y  d S )Nr   FzEthe gradients passed in does not equal to the size of the parameters!zParams length: z. zGradients length: r   r,   r-   r/   r0   r1   r   r   r   r   r   r2   )r%   r$   r   Úzipr   r6   r7   r#   r8   r9   r:   r   r;   r<   r=   r   r   r   r   )r&   rE   r   r>   r?   r@   rA   rB   rC   r3   r*   Úgradientr#   r'   r'   r(   r,   ƒ   s€   
ÿþÿ



ÿ
ÿ
ÿ
€
î"ÿz_FunctionalAdam.stepN)	r
   r   r   r   FFFFF)Ú__name__Ú
__module__Ú__qualname__r   r   Úfloatr   Úboolr)   r   rD   r,   r'   r'   r'   r(   r	      sB    õþý
üûúùø	÷
ö
õ-<r	   )Útypingr   r   r   r   r   Útorch.optim._functionalÚoptimÚ_functionalr<   r   Ú,torch.distributed.optim._deprecation_warningr   r   r"   Ú__annotations__r    Úscriptr	   r'   r'   r'   r(   Ú<module>   s   