o ß—¦i>ã@svUddlmZmZmZmZddlZddlmmZ ddlm Z ddlmZgZ eeed<ejjGdd„dƒƒZdS)é)ÚDictÚListÚOptionalÚTupleN)ÚTensor)Ú2_scripted_functional_optimizer_deprecation_warningÚ__all__c@sheZdZ ddeededeeefd ed ededed efdd„Zdee efdd„Z dS)Ú_FunctionalAdamaxçü©ñÒMbP?©gÍÌÌÌÌÌì?g+‡ÙÎ÷ï?ç:Œ0âŽyE>çFÚparamsÚlrÚbetasÚepsÚweight_decayÚforeachÚmaximizeÚ_allow_empty_param_listc Cstddd|kstd|›ƒ‚d|kstd|›ƒ‚d|dkr'dks1ntd|d›ƒ‚d|d kr=dksGntd |d ›ƒ‚d|ksRtd|›ƒ‚|||d|d |dœ|_||_||_tj ttj tt tj ffi¡|_t|ƒdkrƒ|sƒtd ƒ‚d|i|_ dS)Né)Ú stacklevelr zInvalid learning rate: zInvalid epsilon value: rgð?z#Invalid beta parameter at index 0: éz#Invalid beta parameter at index 1: zInvalid weight_decay value: )rrÚbeta1Úbeta2rz%optimizer got an empty parameter listr)rÚ ValueErrorÚdefaultsrrÚtorchÚjitÚannotaterrÚstrÚstateÚlenÚparam_group) Úselfrrrrrrrr©r%úg/home/ubuntu/transcripts/venv/lib/python3.10/site-packages/torch/distributed/optim/functional_adamax.pyÚ__init__s. û$z_FunctionalAdamax.__init__Ú gradientscCs˜|jd}g}g}g}g}g}t|ƒt|ƒkr*tddt|ƒ›ddt|ƒ›ƒ‚d}t|jd|ƒD]]\} } | dur‘|t | ¡O}| | ¡| | ¡| |jvrwi|j| <|j| }t d¡|d<tj | tj d |d <tj | tj d |d<|j| }| |d ¡| |d¡| |d¡q4t ¡,tj ||||||jd|jd |jd|jd|jd|j|j|d WdƒdS1sÅwYdS)NrzEthe gradients passed in does not equal to the size of the parameters!zParams length: z. zGradients length: Fr Ústep)Ú memory_formatÚexp_avgÚexp_infrrrrr)rrrrrrrÚhas_complex)r#r"rÚziprÚ is_complexÚappendr!ÚtensorÚ zeros_likeÚpreserve_formatÚno_gradÚFÚadamaxrrr)r$r(rÚparams_with_gradÚgradsÚexp_avgsÚexp_infsÚstate_stepsr-ÚparamÚgradientr!r%r%r&r)Csh ÿþÿ ÿ ÿ € ó"ÿz_FunctionalAdamax.stepN)r rrr FFF)Ú__name__Ú __module__Ú__qualname__rrÚfloatrÚboolr'rr)r%r%r%r&r s4÷þý üûúùø ÷)r )ÚtypingrrrrrÚtorch.optim._functionalÚoptimÚ_functionalr5rÚ,torch.distributed.optim._deprecation_warningrrr Ú__annotations__rÚscriptr r%r%r%r&Ús