o ÓÙ¾i<ã@s$dZddlZGdd„dejjƒZdS)z› AdaHessian Optimizer Lifted from https://github.com/davda54/ada-hessian/blob/master/ada_hessian.py Originally licensed MIT, Copyright 2020, David Samuel éNcspeZdZdZ d‡fd d „ Zedd„ƒZd d„Zdd„Ze ¡dd„ƒZe ¡ddd„ƒZ‡Z S)Ú Adahessianaî Implements the AdaHessian algorithm from "ADAHESSIAN: An Adaptive Second OrderOptimizer for Machine Learning" Arguments: params (iterable): iterable of parameters to optimize or dicts defining parameter groups lr (float, optional): learning rate (default: 0.1) betas ((float, float), optional): coefficients used for computing running averages of gradient and the squared hessian trace (default: (0.9, 0.999)) eps (float, optional): term added to the denominator to improve numerical stability (default: 1e-8) weight_decay (float, optional): weight decay (L2 penalty) (default: 0.0) hessian_power (float, optional): exponent of the hessian trace (default: 1.0) update_each (int, optional): compute the hessian trace approximation only after *this* number of steps (to save time) (default: 1) n_samples (int, optional): how many times to sample `z` for the approximation of the hessian trace (default: 1) çš™™™™™¹?©gÍÌÌÌÌÌì?g+‡ÙÎ÷ï?ç:Œ0âŽyE>ççð?éFc sd|kstd|›ƒ‚d|kstd|›ƒ‚d|dkr"dks,ntd|d›ƒ‚d|dkr8dksBntd|d›ƒ‚d|krLdksTntd |›ƒ‚||_||_| |_d |_t ¡ |j¡|_t |||||d} t t|ƒ || ¡| ¡D]}d|_d|j|d<qdS) NrzInvalid learning rate: zInvalid epsilon value: rrz#Invalid beta parameter at index 0: rz#Invalid beta parameter at index 1: zInvalid Hessian power value: iÿÿÿ)ÚlrÚbetasÚepsÚweight_decayÚ hessian_powerúhessian step)Ú ValueErrorÚ n_samplesÚupdate_eachÚavg_conv_kernelÚseedÚtorchÚ GeneratorÚmanual_seedÚ generatorÚdictÚsuperrÚ__init__Ú get_paramsÚhessÚstate)ÚselfÚparamsr r rrr rrrÚdefaultsÚp©Ú __class__©úI/home/ubuntu/.local/lib/python3.10/site-packages/timm/optim/adahessian.pyrs6ûþzAdahessian.__init__cCsdS)NTr$©rr$r$r%Úis_second_orderFszAdahessian.is_second_ordercCsdd„|jDƒS)zH Gets all parameters in all param_groups with gradients css(|]}|dD]}|jr|VqqdS)rN)Ú requires_grad)Ú.0Úgroupr!r$r$r%Ú Os€&z(Adahessian.get_params..)Úparam_groupsr&r$r$r%rJszAdahessian.get_paramscCs@| ¡D]}t|jtƒs|j|d|jdkr|j ¡qdS)z; Zeros out the accumulated hessian traces. rrN)rÚ isinstancerÚfloatrrÚzero_)rr!r$r$r%Úzero_hessianQs $ €þzAdahessian.zero_hessianc sg}tdd„ˆ ¡ƒD]}ˆj|dˆjdkr| |¡ˆj|dd7<qt|ƒdkr2dSˆjj|djkrHt |dj¡ ˆj¡ˆ_dd„|Dƒ}tˆj ƒD]3}‡fd d„|Dƒ}tjj|||d |ˆj dkd}t|||ƒD]\}}}|j||ˆj 7_quqTdS)z} Computes the Hutchinson approximation of the hessian trace and accumulates it for each trainable parameter. cSs |jduS©N©Úgrad)r!r$r$r%Úas z(Adahessian.set_hessian..rrrNcSsg|]}|j‘qSr$r2©r)r!r$r$r%Ú lsz*Adahessian.set_hessian..c s0g|]}tjdd| ¡ˆj|jddd‘qS)ré)rÚdeviceg@r)rÚrandintÚsizerr8r5r&r$r%r6ps0T)Úgrad_outputsÚonly_inputsÚretain_graph)ÚfilterrrrÚappendÚlenrr8rrrrÚrangerÚautogradr3Úzipr) rrr!ÚgradsÚiÚzsÚh_zsÚh_zÚzr$r&r%Úset_hessianZs& ÿÿûzAdahessian.set_hessianNcCs¬d}|dur |ƒ}| ¡| ¡|jD]¿}|dD]¸}|jdus&|jdur'q|jrD| ¡dkrDt |j¡j ddgdd |j¡ ¡|_| d|d |d ¡|j |}t|ƒdkrnd|d<t |¡|d <t |¡|d<|d |d}}|d\}} |dd7<| |¡j|jd|d| | ¡j|j|jd| dd||d} d| |d}|d}|| |d¡ |d¡} |d | }|j|| |dqq|S)z¿ Performs a single optimization step. Arguments: closure (callable, optional) -- a closure that reevaluates the model and returns the loss (default: None) Nrér7éT)ÚdimÚkeepdimrr rrÚstepÚexp_avgÚexp_hessian_diag_sqr )Úalpha)Úvaluer r)r0rJr,r3rrrMrÚabsÚmeanÚ expand_asÚcloneÚmul_rr@Ú zeros_likeÚadd_Úaddcmul_Úpow_Úaddcdiv_)rÚclosureÚlossr*r!rrPrQÚbeta1Úbeta2Úbias_correction1Úbias_correction2ÚkÚdenomÚ step_sizer$r$r%rOvs< ( Ü&zAdahessian.step)rrrrrrrFr1)Ú__name__Ú __module__Ú__qualname__Ú__doc__rÚpropertyr'rr0rÚno_gradrJrOÚ __classcell__r$r$r"r%r s&ö, r)rjrÚoptimÚ Optimizerrr$r$r$r%Ús