o ß—¦iŒã@svUddlmZmZmZmZddlZddlmmZ ddlm Z ddlmZgZ eeed<ejjGdd„dƒƒZdS)é)ÚDictÚListÚOptionalÚTupleN)ÚTensor)Ú2_scripted_functional_optimizer_deprecation_warningÚ__all__c@sŠeZdZ ddeededeeefd ed ededed ededefdd„Zdede efdd„Z dee efdd„ZdS)Ú_FunctionalAdamWçü©ñÒMbP?©gÍÌÌÌÌÌì?g+‡ÙÎ÷ï?ç:Œ0âŽyE>ç{®Gáz„?FÚparamsÚlrÚbetasÚepsÚweight_decayÚamsgradÚmaximizeÚforeachÚfusedÚ_allow_empty_param_listcCs tddd|kstd|›ƒ‚d|kstd|›ƒ‚d|dkr'dks1ntd|d›ƒ‚d|d kr=dksGntd |d ›ƒ‚d|ksRtd|›ƒ‚|||d|d |dœ|_||_||_||_| |_tj t tjt ttjffi¡|_ t|ƒdkr‰| s‰td ƒ‚d|i|_dS)Né)Ú stacklevelçzInvalid learning rate: zInvalid epsilon value: rgð?z#Invalid beta parameter at index 0: éz#Invalid beta parameter at index 1: zInvalid weight_decay value: )rrÚbeta1Úbeta2rz%optimizer got an empty parameter listr)rÚ ValueErrorÚdefaultsrrrrÚtorchÚjitÚannotaterrÚstrÚstateÚlenÚparam_group)Úselfrrrrrrrrrr©r(úf/home/ubuntu/transcripts/venv/lib/python3.10/site-packages/torch/distributed/optim/functional_adamw.pyÚ__init__s2 û$z_FunctionalAdamW.__init__ÚparamÚgradcCsvg}g}g}g}g}g}t |¡} |dur| |¡| |¡||jvrVi|j|<|j|} t d¡| d<tj|tjd| d<tj|tjd| d<|jrVtj|tjd| d<|j|} | | d¡| | d¡|jrs| | d¡| | d¡t ¡3t j |||||||j|j|jd|jd|jd |jd |jd|j |jdd| dWdƒdS1s´wYdS) NrÚstep©Ú memory_formatÚexp_avgÚ exp_avg_sqÚmax_exp_avg_sqrrrrr©rrrrrrrrrÚ grad_scaleÚ found_infÚhas_complex)r Ú is_complexÚappendr$ÚtensorÚ zeros_likeÚpreserve_formatrÚno_gradÚFÚadamwrrrr)r'r+r,Úparams_with_gradÚgradsÚexp_avgsÚexp_avg_sqsÚmax_exp_avg_sqsÚstate_stepsr6r$r(r(r)Ú step_paramGsh ÿ ÿ ÿ î"ÿz_FunctionalAdamW.step_paramÚ gradientsc CsØ|jd}g}g}g}g}g}g}t|ƒt|ƒkr,tddt|ƒ›ddt|ƒ›ƒ‚d} t|jd|ƒD]t\} }|durª| t | ¡O} | | ¡| |¡| |jvr†i|j| <|j| }t d¡|d<tj | tj d |d <tj | tj d |d<|jr†tj | tj d |d<|j| }| |d ¡| |d¡|jr£| |d¡| |d¡q6t ¡3t j|||||||j|j|jd |jd|jd|jd|jd|j|jdd| dWdƒdS1såwYdS)NrzEthe gradients passed in does not equal to the size of the parameters!zParams length: z. zGradients length: Frr-r.r0r1r2rrrrrr3)r&r%rÚzipr r7r8r$r9r:r;rr<r=r>rrrr) r'rFrr?r@rArBrCrDr6r+Úgradientr$r(r(r)r-„s€ ÿþÿ ÿ ÿ ÿ € î"ÿz_FunctionalAdamW.stepN) r rrr FFFFF)Ú__name__Ú __module__Ú__qualname__rrÚfloatrÚboolr*rrEr-r(r(r(r)r sBõþý üûúùø ÷ ö õ-=r )Útypingrrrrr Útorch.optim._functionalÚoptimÚ_functionalr=rÚ,torch.distributed.optim._deprecation_warningrrr#Ú__annotations__r!Úscriptr r(r(r(r)Ús