o
    ãÊiÐ/  ã                   @   s  U d dl Z d dlmZmZ d dlmZ d dlmZmZm	Z	 d dl
Z
d dlmZ ddlmZmZmZ ddlmZmZmZmZ dd	lmZ e  e¡ZG d
d„ dƒZdd„ Zedefi ƒZeed< G dd„ dee
j j!ƒZ"G dd„ de"ƒZ#G dd„ de"ƒZ$G dd„ de"ƒZ%dS )é    N)ÚABCMetaÚabstractmethod)Úpartial)ÚAnyÚOptionalÚTuple)Ú_fake_quantize_affineé   )ÚGranularityÚPerRowÚ	PerTensor)ÚMappingTypeÚZeroPointDomainÚ_get_reduction_paramsÚ"choose_qparams_affine_with_min_max)Úget_block_sizec                   @   s,   e Zd Zdd„ Zdd„ Zdd„ Zdd„ Zd	S )
Ú_PartialWrapperc                 C   s
   || _ d S ©N©Úp)Úselfr   © r   úQ/home/ubuntu/.local/lib/python3.10/site-packages/torchao/quantization/observer.pyÚ__init__   ó   
z_PartialWrapper.__init__c                 O   s   | j |i |¤ŽS r   r   )r   ÚargsÚkeywordsr   r   r   Ú__call__    s   z_PartialWrapper.__call__c                 C   s
   | j  ¡ S r   )r   Ú__repr__©r   r   r   r   r   #   r   z_PartialWrapper.__repr__c                 O   s   t | g|¢R i |¤ŽS r   )Ú
_with_args)r   r   Úkwargsr   r   r   Ú	with_args&   s   z_PartialWrapper.with_argsN)Ú__name__Ú
__module__Ú__qualname__r   r   r   r"   r   r   r   r   r      s
    r   c                 O   s   t t| g|¢R i |¤Žƒ}|S )a  Wrapper that allows creation of class factories.

    This can be useful when there is a need to create classes with the same
    constructor arguments, but different instances.

    Example::

        >>> # xdoctest: +SKIP("Undefined vars")
        >>> Foo.with_args = classmethod(_with_args)
        >>> foo_builder = Foo.with_args(a=3, b=4).with_args(answer=42)
        >>> foo_instance1 = foo_builder()
        >>> foo_instance2 = foo_builder()
        >>> id(foo_instance1) == id(foo_instance2)
        False
    )r   r   )Úcls_or_selfr   r!   Úrr   r   r   r    *   s   r    ÚABCc                       s¼   e Zd ZdZeeƒZddddddejdfde	de
jdedee d	ee d
ee dee
j dee
j dededef‡ fdd„Zede
jde
jfdd„ƒZedee
je
jf fdd„ƒZ‡  ZS )ÚAffineQuantizedObserverBaseaÀ  Observer module for affine quantization (https://github.com/pytorch/ao/tree/main/torchao/quantization#affine-quantization)

    Args:
      `granularity` and `block_size`: The granularity of the quantization,
        must specify at least one, if both are specified `block_size` takes precedence
        Current supported granularity type are `PerTensor` and `PerAxis`
      other args: please see `:class:torchao.dtypes.AffineQuantizedTensor`
    NTFÚmapping_typeÚtarget_dtypeÚgranularityÚ	quant_minÚ	quant_maxÚepsÚscale_dtypeÚzero_point_dtypeÚpreserve_zeroÚzero_point_domainÚkeepdimc                    sp   t ƒ  ¡  |d usJ dƒ‚|
d u rtdƒ‚|| _|| _|| _|| _|| _|| _|| _	|| _
|	| _|
| _|| _d S )Núgranularity is Nonez/Please use ZeroPointDomain.NONE instead of None)Úsuperr   Ú
ValueErrorr*   r+   r,   r-   r.   r/   r0   r1   r2   r3   r4   )r   r*   r+   r,   r-   r.   r/   r0   r1   r2   r3   r4   ©Ú	__class__r   r   r   M   s   

z$AffineQuantizedObserverBase.__init__ÚinputÚreturnc                 C   ó   dS )z~forward function should take the input tensor
        and updates internal stats and return the original input Tensor
        Nr   ©r   r:   r   r   r   Úforwardk   ó   z#AffineQuantizedObserverBase.forwardc                 C   r<   )z—Calculate quantization parameter based on the stats attached to the observer module
        and returns a tuple of scale and zero_point Tensor
        Nr   r   r   r   r   Úcalculate_qparamsr   r?   z-AffineQuantizedObserverBase.calculate_qparams)r#   r$   r%   Ú__doc__Úclassmethodr    r"   r   ÚINTr   ÚtorchÚdtyper
   r   ÚintÚfloatÚboolr   r   ÚTensorr>   r   r@   Ú__classcell__r   r   r8   r   r)   A   sL    	ôþýüûúùø	÷
öõô$r)   c                   @   s6   e Zd Zdejfdd„Zdeejejf fdd„ZdS )ÚAffineQuantizedMinMaxObserverr:   c                 C   s$  |  ¡ dkr|S | ¡ }| jd usJ dƒ‚t|j| jƒ}t|| ¡ ƒ\}}| |¡}tj	||| j
d}tj||| j
d}t| dƒrFt| dƒsN|| _|| _|S | jj|jksbJ d| jj› d|j› ƒ‚| jj|jksvJ d| jj› d	|j› ƒ‚t | j|¡}t | j|¡}| j |¡ | j |¡ |S )
Nr   r5   ©Údimr4   Úmin_valÚmax_valz=Can't update existing min_val - shape mismatch, self.min_val:z != min_val:z=Can't update existing max_val - shape mismatch, self.max_val z != max_val:)ÚnumelÚdetachr,   r   Úshaper   ÚsizeÚviewrD   Úaminr4   ÚamaxÚhasattrrN   rO   ÚminÚmaxÚcopy_)r   r:   Úinput_detachedÚ
block_sizeÚshape_for_reductionÚreduction_dimsrN   rO   r   r   r   r>   {   s4   ÿ
õÿÿz%AffineQuantizedMinMaxObserver.forwardr;   c                 C   óP   t | dƒr
t | dƒsJ dƒ‚t| j| j| jg | j| j| j| j| j	| j
| j| jƒS ©NrN   rO   zhExpecting the observer has min_val and max_val, please run the observer before calling calculate_qparams©rW   r   rN   rO   r*   r+   r-   r.   r/   r0   r1   r2   r3   r   r   r   r   r@   š   ó"   ÿôz/AffineQuantizedMinMaxObserver.calculate_qparamsN)r#   r$   r%   rD   rI   r>   r   r@   r   r   r   r   rK   z   s    rK   c                       s¨   e Zd ZdZddddddejddf	dedejde	de
e de
e d	e
e d
e
ej de
ej dedede
ej de
ej f‡ fdd„Zddd„Zdd„ Zdd„ Z‡  ZS )Ú"AffineQuantizedFixedQParamObserverzO
    Observer that allows manual setting of fixed quantization parameters.
    NTr*   r+   r,   r-   r.   r/   r0   r1   r2   r3   ÚscaleÚ
zero_pointc                    sh   t ƒ  |||||||||	|
¡
 |st dg¡}|st |¡}|  d|j|d¡ |  d|j|d¡ d S )Nr	   rd   ©rE   re   )r6   r   rD   rI   Ú
zeros_likeÚregister_bufferÚto)r   r*   r+   r,   r-   r.   r/   r0   r1   r2   r3   rd   re   r8   r   r   r   ³   s$   ö
z+AffineQuantizedFixedQParamObserver.__init__c                 C   s2   |st  |¡}|j| jd| _|j| jd| _d S )Nrf   )rD   rg   ri   r0   rd   r1   re   )r   rd   re   r   r   r   Úset_qparamsÕ   s   
z.AffineQuantizedFixedQParamObserver.set_qparamsc                 C   s   |S r   r   r=   r   r   r   r>   Û   s   z*AffineQuantizedFixedQParamObserver.forwardc                 C   s   | j | jfS r   )rd   re   r   r   r   r   r@   Þ   s   z4AffineQuantizedFixedQParamObserver.calculate_qparamsr   )r#   r$   r%   rA   r   rC   r   rD   rE   r
   r   rF   rG   rH   rI   r   rj   r>   r@   rJ   r   r   r8   r   rc   ®   sN    	óþýüûúùø	÷
öõôó
"rc   c                       sª   e Zd ZdZddddddejddf	dedejde	d	e
e d
e
e de
e de
ej de
ej dedededef‡ fdd„Zdd„ Zdd„ Zdd„ Zdd„ Zdd„ Z‡  ZS )ÚAffineQuantizedMSEObserverz‡
    Minimize quantization loss caused by outlier via linear search. More details can be found at https://arxiv.org/pdf/2209.13325
    NTéd   Fr*   r+   r,   r-   r.   r/   r0   r1   r2   r3   ÚstepsÚrun_oncec                    s4   t ƒ  |||||||||	|
¡
 || _d| _|| _d S )NF)r6   r   rm   Ú
calibratedrn   )r   r*   r+   r,   r-   r.   r/   r0   r1   r2   r3   rm   rn   r8   r   r   r   ç   s   ö
z#AffineQuantizedMSEObserver.__init__c                 C   s>   ||   ¡  d¡}t|| ¡ ƒ\}}| |¡}tj||ddS )Né   FrL   )ÚabsÚpowr   rS   rT   rD   Úmean)r   ÚpredÚexpectr\   Úlossr]   r^   r   r   r   Úmse  s   ÿ
zAffineQuantizedMSEObserver.msec                 C   sn   t |j| jƒ}t||| jg | j| j| j| j| j	| j
| j| jƒ\}}t||||| j| j| j| jƒ}|  |||¡S r   )r   rR   r,   r   r*   r+   r-   r.   r/   r0   r1   r2   r3   r   rw   )r   ÚxÚnew_minÚnew_maxr\   rd   re   Úx_qr   r   r   Úloss_fn  s4   ôø
z"AffineQuantizedMSEObserver.loss_fnc                 C   s   |  ¡ dkr|S | ¡ }| jd usJ dƒ‚t|j| jƒ}t|| ¡ ƒ\}}| |¡}tj	||dd}tj
||dd}t | ¡ |¡}t |¡d }	td| jd ƒD ]*}
|| j |
 }|  || |¡}t ||	k | |¡}t ||	k ||¡}t ||	¡}	qQ||fS )Nr   r5   FrL   g    eÍÍAr	   )rP   rQ   r,   r   rR   r   rS   rT   rD   rU   rV   rY   rq   rg   Úrangerm   r|   ÚwhererX   )r   r:   r[   r\   r]   r^   rN   rO   Ú	range_valÚoptimal_lossÚiÚthresÚcurrent_lossr   r   r   Úline_search*  s(   ÿ
z&AffineQuantizedMSEObserver.line_searchc                 C   s(   | j r| js|  |¡\| _| _d| _|S )NT)rn   ro   r„   rN   rO   r=   r   r   r   r>   F  s   z"AffineQuantizedMSEObserver.forwardc                 C   r_   r`   ra   r   r   r   r   r@   M  rb   z,AffineQuantizedMSEObserver.calculate_qparams)r#   r$   r%   rA   r   rC   r   rD   rE   r
   r   rF   rG   rH   r   rw   r|   r„   r>   r@   rJ   r   r   r8   r   rk   â   sR    	óþýüûúùø	÷
öõôórk   )&ÚloggingÚabcr   r   Ú	functoolsr   Útypingr   r   r   rD   Ú%torchao.quantization.quant_primitivesr   r,   r
   r   r   Úquant_primitivesr   r   r   r   Úutilsr   Ú	getLoggerr#   Úloggerr   r    Úobjectr(   Ú__annotations__ÚnnÚModuler)   rK   rc   rk   r   r   r   r   Ú<module>   s"   

944