o
    ,’×i£<  ã                "   @   sÜ  d dl mZmZmZmZ d dlZd dlmZ ddlmZm	Z	m
Z
mZmZmZmZmZmZmZmZmZmZ ddgZG dd„ deƒZd	e› d
e› d
e
› d
e› d	e_dee dee dee dee dee dee dededededededededefdd„Zdee dee dee dee dee dee dededededededededefdd„Zeed		 	 	 	 d#dee dee dee dee dee dee d!ee dededededededededef d"d„ƒZdS )$é    )ÚListÚOptionalÚTupleÚUnionN)ÚTensoré   )Ú_capturable_docÚ_default_to_fused_or_foreachÚ_differentiable_docÚ_disable_dynamo_if_unsupportedÚ_foreach_docÚ!_get_capturable_supported_devicesÚ_get_scalar_dtypeÚ
_get_valueÚ_maximize_docÚ_use_grad_for_differentiableÚ_view_as_realÚ	OptimizerÚParamsTÚASGDÚasgdc                       s€   e Zd Z									dded	ed
ededededee dededef‡ fdd„Z‡ fdd„Zdd„ Z	e
ddd„ƒZ‡  ZS )r   ç{®Gáz„?ç-Cëâ6?ç      è?ç    €„.Ar   NFÚparamsÚlrÚlambdÚalphaÚt0Úweight_decayÚforeachÚmaximizeÚdifferentiableÚ
capturablec                    sX   d|kst d|› ƒ‚d|kst d|› ƒ‚t||||||||	|
d	}tƒ  ||¡ d S )Ng        zInvalid learning rate: zInvalid weight_decay value: )	r   r   r   r   r    r!   r"   r#   r$   )Ú
ValueErrorÚdictÚsuperÚ__init__)Úselfr   r   r   r   r   r    r!   r"   r#   r$   Údefaults©Ú	__class__© úN/home/ubuntu/SoloSpeech/.venv/lib/python3.10/site-packages/torch/optim/asgd.pyr(      s    ÷zASGD.__init__c                    sú   t ƒ  |¡ | jD ]q}| dd ¡ | dd¡ | dd¡ | dd¡ |d D ]R}| j |g ¡}t|ƒdkryt |d ¡sOt	|d ƒ}tj
|tƒ |jd	|d< t |d
 ¡sdtj
|d
 tƒ |jd	|d
< t |d ¡sytj
|d tƒ |jd	|d< q'q	d S )Nr!   r"   Fr#   r$   r   r   Ústep)ÚdtypeÚdeviceÚetaÚmu)r'   Ú__setstate__Úparam_groupsÚ
setdefaultÚstateÚgetÚlenÚtorchÚ	is_tensorÚfloatÚtensorr   r1   )r)   r7   ÚgroupÚpÚp_stateÚstep_valr+   r-   r.   r4   :   s2   


ÿ
ÿ
ÿ€óûzASGD.__setstate__c                 C   s
  d}|d D ]|}	|	j d ur‚|t |	¡O }| |	¡ |	j jr!tdƒ‚| |	j ¡ | j|	 }
t|
ƒdkrftjd|	j	t
ƒ d|
d< tj|d |	j	t
ƒ d ¡  ¡ |
d	< tjd|	j	t
ƒ d|
d
< tj|	tjd|
d< | |
d
 ¡ | |
d ¡ | |
d	 ¡ | |
d ¡ q|S )NFr   z&ASGD does not support sparse gradientsr   r-   )r1   r0   r/   r   r2   r3   )Úmemory_formatÚax)Úgradr:   Ú
is_complexÚappendÚ	is_sparseÚRuntimeErrorr7   r9   Úzerosr1   r   Ú	as_tensorÚcloneÚdetachÚonesÚ
zeros_likeÚpreserve_format)r)   r>   Úparams_with_gradÚgradsÚmusÚaxsÚetasÚstate_stepsÚhas_complexr?   r7   r-   r-   r.   Ú_init_groupR   s>   




ÿÿû

ÿ
ÿ€zASGD._init_groupc                 C   sÌ   |   ¡  d}|dur!t ¡  |ƒ }W d  ƒ n1 sw   Y  | jD ]?}g }g }g }g }g }g }	|  |||||||	¡}
t||||||	|d |d |d |d |d |d |d |d	 |d
 |
d q$|S )z°Perform a single optimization step.

        Args:
            closure (Callable, optional): A closure that reevaluates the model
                and returns the loss.
        Nr   r   r   r   r    r!   r"   r#   r$   )
r   r   r   r   r    r!   r"   r#   r$   rV   )Ú _cuda_graph_capture_health_checkr:   Úenable_gradr5   rW   r   )r)   ÚclosureÚlossr>   rP   rQ   rR   rS   rT   rU   rV   r-   r-   r.   r/   v   sF   
ÿ
ÿðz	ASGD.step)	r   r   r   r   r   NFFF©N)Ú__name__Ú
__module__Ú__qualname__r   r<   r   Úboolr(   r4   rW   r   r/   Ú__classcell__r-   r-   r+   r.   r      sF    õþýüûúùø	÷
öõ$ah  Implements Averaged Stochastic Gradient Descent.

    It has been proposed in `Acceleration of stochastic approximation by
    averaging`_.

    Args:
        params (iterable): iterable of parameters to optimize or dicts defining
            parameter groups
        lr (float, optional): learning rate (default: 1e-2)
        lambd (float, optional): decay term (default: 1e-4)
        alpha (float, optional): power for eta update (default: 0.75)
        t0 (float, optional): point at which to start averaging (default: 1e6)
        weight_decay (float, optional): weight decay (L2 penalty) (default: 0)
        z	
        zx

    .. _Acceleration of stochastic approximation by averaging:
        https://dl.acm.org/citation.cfm?id=131098

    r   rQ   rS   rR   rT   rU   r   r   r   r   r    r"   r#   r$   rV   c       	      
   C   s  t | ƒD ] \}}|| }|s|n| }|| }|| }|| }|| }tj ¡ sU|rUtƒ }|jj|jj  krE|jj  krE|jjkrMn n|jj|v sUJ d|› dƒ‚t |¡rit |¡}t |¡}t |¡}|d7 }|
dkrx|j	||
d}|rŒ| 
d||  ¡ |j||dd nt|ƒ}| 
d||  ¡ |j|| d |s©| ¡ dkrµ| | |¡ 
|¡¡ n| |¡ |rÜ| |d|| |  |	  ¡ | dt || t |¡¡ ¡ qt|ƒ}t |d|| |  |	  ¡}| |¡ t dtd|| ƒ ¡}| |¡ qd S )NúUIf capturable=True, params, mus, etas, and state_steps must be on supported devices: Ú.r   r   ©r   éÿÿÿÿ©Úvalue)Ú	enumerater:   Ú_utilsÚis_compilingr   r1   ÚtyperE   Úview_as_realÚaddÚmul_Úaddcmul_r   Úadd_ÚitemÚsubÚcopy_ÚmaximumÚ	ones_likerJ   Úmax)r   rQ   rS   rR   rT   rU   r   r   r   r   r    r"   r#   r$   rV   ÚiÚparamrD   r3   rC   r2   Ústep_tÚcapturable_supported_devicesÚ	eta_valuer/   Únew_etaÚnew_mur-   r-   r.   Ú_single_tensor_asgd¿   s\   ÿþ
ýÿþ




"
Ér~   c       	            sD  t | ƒdkrd S |rJ dƒ‚tj ¡ s2|r2tdd‰t‡fdd„t| |||ƒD ƒƒs2J dˆ› dƒ‚t | |||||g¡}| 	¡ D ]Þ\\‰}\\}}}}}}}|rWt
|||ƒ |r^t |¡}|d jrqtj|tjd	d
dd	d nt |d¡ |
dkr™|rˆtj|||
d |}ntj|||
d}tj||ˆd ntj||ˆd}tj|||dd ~t ||¡}t |||¡ ~|rýt |ˆ¡}t |d	¡ t |¡ t ||¡ ~t |ˆ¡}t |ˆ¡ t |d¡ t |ˆ ¡ t |¡ t |ˆ¡ t ||¡ qA‡ ‡‡‡fdd„|D ƒ}‡‡fdd„|D ƒ}t ||¡ t ||¡ qAd S )Nr   z#_foreach ops don't support autogradF)Úsupports_xlac                 3   sV    | ]&\}}}}|j j|j j  ko|j j  ko|j jkn  o&|j jˆ v V  qd S r\   )r1   rk   )Ú.0r?   r3   r2   r/   )rz   r-   r.   Ú	<genexpr>'  s   € 
2þ

þz%_multi_tensor_asgd.<locals>.<genexpr>rb   rc   g      ð?Úcpu©r1   rd   r   re   rf   c                    s.   g | ]}t jˆd ˆˆ |  ˆ   ˆd‘qS ©r   rƒ   )r:   rJ   ©r€   r/   )r   r1   r   r   r-   r.   Ú
<listcomp>ƒ  s     ÿÿz&_multi_tensor_asgd.<locals>.<listcomp>c                    s,   g | ]}t jd td t|ƒˆ ƒ ˆ d‘qS r„   )r:   rJ   rv   r   r…   )r1   r   r-   r.   r†   ‡  s    ÿÿ)r9   r:   ri   rj   r   ÚallÚzipr   Ú"_group_tensors_by_device_and_dtypeÚitemsr   Ú_foreach_negÚis_cpuÚ_foreach_add_r=   Ú_foreach_addÚ_foreach_addcmul_Ú_foreach_subÚ_foreach_maximum_Ú_foreach_reciprocal_Ú_foreach_copy_Ú_foreach_mulÚ_foreach_mul_Ú_foreach_pow_)r   rQ   rS   rR   rT   rU   r   r   r   r   r    r"   r#   r$   rV   Úgrouped_tensorsÚ_Úgrouped_paramsÚgrouped_gradsÚgrouped_axsÚgrouped_musÚgrouped_etasÚgrouped_state_stepsÚintermediateÚnew_musÚnew_etasr-   )r   rz   r1   r   r   r   r.   Ú_multi_tensor_asgd  s   ÿ
ý
üÿö

ÿÿÿ


þþ¤r¢   )Úsingle_tensor_fnFr!   c                C   sr   |du rt | |dd\}}|rtj ¡ rtdƒ‚|r"tj ¡ s"t}nt}|| |||||||||||||	|
d dS )znFunctional API that performs asgd algorithm computation.

    See :class:`~torch.optim.ASGD` for details.
    NF)Ú	use_fusedz6torch.jit.script not supported with foreach optimizers)	r   r   r   r   r    r"   r#   r$   rV   )r	   r:   ÚjitÚis_scriptingrH   r¢   r~   )r   rQ   rS   rR   rT   rU   r!   r"   r#   r$   rV   r   r   r   r   r    r˜   Úfuncr-   r-   r.   r     s4   
ÿ
ñ)NFFFF)Útypingr   r   r   r   r:   r   Ú	optimizerr   r	   r
   r   r   r   r   r   r   r   r   r   r   Ú__all__r   Ú__doc__r<   r`   r~   r¢   r   r-   r-   r-   r.   Ú<module>   sì   < óòñ
ðÿþýüûúø	÷
öõôóòñ
ðLÿþýüûúø	÷
öõôóòñ
ð 
óÿþýüûú	÷
öõôóñðïîí