o
    §\Äi&7  ã                   @   sh  U d dl Z d dlZd dlZd dlmZ d dlmZmZm	Z	m
Z
mZmZ d dlmZ d dlZd dlZd dlZeeeejef f Zeee	e f ZdZdZdZdZg d	¢Ze	e ed
< dZdZ dedefdd„Z!deddfdd„Z"dede	e fdd„Z#dede$fdd„Z%dede$fdd„Z&dede'fdd„Z(dedeejef fdd„Z)d ejdejfd!d"„Z*d ejdejfd#d$„Z+d%edejfd&d'„Z,d(eee	e f de	ej fd)d*„Z-d+e	e d,edee	e  fd-d.„Z.ed/d0G d1d2„ d2ƒƒZ/	3	4dFd5ejd6ed7e0d8e0d9e0de	eeje0f  fd:d;„Z1dGd=d>„Z2	dHd?ed@e
e deeef fdAdB„Z3dCe	e defdDdE„Z4dS )Ié    N)Ú	dataclass)ÚAnyÚIterableÚListÚOptionalÚTupleÚUnion)Úurlparsei€>  i°  é´   g      à?)(ÚChineseÚEnglishÚ	CantoneseÚArabicÚGermanÚFrenchÚSpanishÚ
PortugueseÚ
IndonesianÚItalianÚKoreanÚRussianÚThaiÚ
VietnameseÚJapaneseÚTurkishÚHindiÚMalayÚDutchÚSwedishÚDanishÚFinnishÚPolishÚCzechÚFilipinoÚPersianÚGreekÚRomanianÚ	HungarianÚ
MacedonianÚAssameseÚBengaliÚGujaratiÚKannadaÚ	MalayalamÚMarathiÚOdiaÚPunjabiÚTamilÚTeluguÚSUPPORTED_LANGUAGESz
<asr_text>z	language ÚlanguageÚreturnc                 C   sH   | du rt dƒ‚t| ƒ ¡ }|st dƒ‚|dd…  ¡ |dd…  ¡  S )a?  
    Normalize language name to the canonical format used by Qwen3-ASR:
    first letter uppercase, the rest lowercase (e.g., 'cHINese' -> 'Chinese').

    Args:
        language (str): Input language name.

    Returns:
        str: Normalized language name.

    Raises:
        ValueError: If language is empty.
    Nzlanguage is Nonezlanguage is emptyé   )Ú
ValueErrorÚstrÚstripÚupperÚlower)r4   Ús© r=   úK/home/ubuntu/training/qwen3-asr-1.7b-phase2-sft/qwen_asr/inference/utils.pyÚnormalize_language_nameT   s    r?   c                 C   s    | t vrtd| › dt › ƒ‚dS )zš
    Validate the language is supported.

    Args:
        language (str): Canonical language name.

    Raises:
        ValueError: If unsupported.
    zUnsupported language: z. Supported: N)r3   r7   )r4   r=   r=   r>   Úvalidate_languagej   s   
ÿr@   Úxc                 C   s   t | tƒr| S | gS ©N)Ú
isinstanceÚlist)rA   r=   r=   r>   Úensure_listx   s   rE   r<   c                 C   s4   zt | ƒ}|jdv ot|jƒW S  ty   Y dS w )N)ÚhttpÚhttpsF)r	   ÚschemeÚboolÚnetlocÚ	Exception)r<   Úur=   r=   r>   Úis_url|   s   ÿrM   c                 C   s2   |   d¡rdS d| vrd| vrt| ƒdkrdS dS )Nz
data:audioTú/ú\é   F)Ú
startswithÚlen)r<   r=   r=   r>   Úis_probably_base64„   s
   
rS   Úb64c                 C   s0   d| v r|   ¡  d¡r|  dd¡d } t | ¡S )NÚ,zdata:r6   )r9   rQ   ÚsplitÚbase64Ú	b64decode)rT   r=   r=   r>   Údecode_base64_bytesŒ   s   
rY   c                 C   s   t | ƒr>tj | ¡}| ¡ }W d   ƒ n1 sw   Y  t |¡}tj|ddd\}}W d   ƒ n1 s8w   Y  n2t| ƒrft	| ƒ}t |¡}tj|ddd\}}W d   ƒ n1 s`w   Y  n
t
j| d dd\}}tj|tjd}t|ƒ}||fS )NÚfloat32F)ÚdtypeÚ	always_2d)ÚsrÚmono©r[   )rM   ÚurllibÚrequestÚurlopenÚreadÚioÚBytesIOÚsfrS   rY   ÚlibrosaÚloadÚnpÚasarrayrZ   Úint)rA   ÚrespÚaudio_bytesÚfÚaudior]   r=   r=   r>   Úload_audio_any’   s$   
ÿÿ€ÿ€rp   ro   c                 C   sf   | j dkr| S | j dkr+| jd dkr | jd | jd kr | j} tj| dd tj¡S td| j › ƒ‚)Nr6   é   r   é   éÿÿÿÿ©ÚaxiszUnsupported audio ndim=)ÚndimÚshapeÚTri   ÚmeanÚastyperZ   r7   )ro   r=   r=   r>   Úto_mono¤   s   

"r{   c                 C   s\   |   tj¡} | jdkr| S tt t | ¡¡ƒ}|dkr| S |dkr%| | } t | dd¡} | S )Nr   ç        g      ð?g      ð¿)rz   ri   rZ   ÚsizeÚfloatÚmaxÚabsÚclip)ro   Úpeakr=   r=   r>   Úfloat_range_normalize¯   s   
rƒ   Úac                 C   s¢   t | tƒrt| ƒ\}}n(t | tƒr+t| ƒdkr+t | d tjƒr+| d t| d ƒ}}n	tdt	| ƒ› ƒ‚t
t |¡ƒ}|tkrKtj||td tj¡}t|ƒ}|S )a/  
    Normalize one audio input to mono 16k float32 waveform in [-1, 1].

    Supported inputs:
        - str: local file path / https URL / base64 audio string
        - (np.ndarray, sr): waveform and sampling rate

    Returns:
        np.ndarray:
            Mono 16k float32 waveform in [-1, 1].
    rq   r   r6   zUnsupported audio input type: )Úorig_srÚ	target_sr)rC   r8   rp   ÚtuplerR   ri   Úndarrayrk   Ú	TypeErrorÚtyper{   rj   ÚSAMPLE_RATErg   Úresamplerz   rZ   rƒ   )r„   ro   r]   r=   r=   r>   Únormalize_audio_input½   s   
&r   Úaudiosc                 C   s   t | ƒ}dd„ |D ƒS )Nc                 S   s   g | ]}t |ƒ‘qS r=   )r   )Ú.0r„   r=   r=   r>   Ú
<listcomp>Ù   s    z$normalize_audios.<locals>.<listcomp>)rE   )rŽ   Úitemsr=   r=   r>   Únormalize_audios×   s   r’   ÚxsÚ
chunk_sizec                 c   s@    |dkr
| V  dS t dt| ƒ|ƒD ]}| ||| … V  qdS )z¤
    Yield chunks of a list.

    Args:
        xs (List[Any]): Input list.
        chunk_size (int): Chunk size.

    Yields:
        List[Any]: Slices of xs.
    r   N)ÚrangerR   )r“   r”   Úir=   r=   r>   Ú
chunk_listÜ   s   €ÿr—   T)Úfrozenc                   @   s<   e Zd ZU dZeed< eed< ejed< eed< eed< dS )Ú
AudioChunka[  
    One chunk cut from an original audio.

    Attributes:
        orig_index: Index of the original sample in the input batch.
        chunk_index: Index of this chunk within the original sample.
        wav: Mono float32 waveform.
        sr: Sampling rate.
        offset_sec: Start offset of this chunk in the original audio, in seconds.
    Ú
orig_indexÚchunk_indexÚwavr]   Ú
offset_secN)	Ú__name__Ú
__module__Ú__qualname__Ú__doc__rk   Ú__annotations__ri   rˆ   r~   r=   r=   r=   r>   r™   î   s   
 

r™   ç      @ç      Y@rœ   r]   Úmax_chunk_secÚsearch_expand_secÚmin_window_msc                  C   s6  t j| t jd} | jdkrt j| dd t j¡} t| jd ƒ}|t|ƒ }||kr.| dfgS t|| ƒ}t|| ƒ}t	dt|d | ƒƒ}	g }
d}d}|| |krÔ|| }t	||| ƒ}t
||| ƒ}|| |	krl|}n9| ||… }t  |¡}t j|t j|	t jdd	d
}tt  |¡ƒ}|}||	 }|||… }tt  |¡ƒ}|| | }tt	||d ƒƒ}tt
||ƒƒ}| ||… }|
 ||f¡ ||| t|ƒ 7 }|}|| |ksQ| ||… }|
 ||f¡ tt| ƒ}g }|
D ]+\}}|jd |k r|t|jd ƒ }t j|d|fddd t j¡}| ||f¡ që|}
|
S )a†  
    Split a long audio into chunks close to max_chunk_sec, using a low-energy boundary.

    This implementation guarantees:
      - Concatenating all returned chunks reproduces the original audio exactly
        (total number of samples is identical, no overlaps, no gaps).

    Args:
        wav: Mono waveform float32.
        sr: Sampling rate.
        max_chunk_sec: Target max chunk duration in seconds.
        search_expand_sec: Boundary search half-window in seconds.
        min_window_ms: Sliding window in milliseconds for energy estimation.

    Returns:
        List[Tuple[np.ndarray, float]]: List of (chunk_wav, offset_sec).
    r_   r6   rs   rt   r   r|   é   g     @@Úvalid)ÚmodeÚconstant)rª   Úconstant_values)ri   rj   rZ   rv   ry   rz   rk   rw   r~   r   Úminr€   ÚconvolveÚonesÚargminÚappendÚMIN_ASR_INPUT_SECONDSÚpad) rœ   r]   r¥   r¦   r§   Ú	total_lenÚ	total_secÚmax_lenÚexpandÚwinÚchunksÚstartr   ÚcutÚleftÚrightÚboundaryÚsegÚseg_absÚwindow_sumsÚmin_posÚwstartÚwendÚlocalÚinnerÚchunkÚtailÚmin_lenÚpaddedÚcÚoffr³   r=   r=   r>   Úsplit_audio_into_chunks  s\   


ãrÍ   é   c                    s2   dd„ }d‡ fdd„	‰ | }|||ƒ} ˆ | |ƒ} | S )Nc                 S   s´   g }d}t | ƒ}||k rUd}|| |k r2| ||  | | kr2|d7 }|| |k r2| ||  | | ks||krB| | | ¡ ||7 }n| | ||| … ¡ ||7 }||k sd |¡S )Nr   r6   Ú )rR   r±   Újoin)r<   ÚthreshÚresr–   ÚnÚcountr=   r=   r>   Úfix_char_repeats[  s     ÿ
ö
z4detect_and_fix_repetitions.<locals>.fix_char_repeatsrÎ   c                    s„  t | ƒ}|d }||k r| S d}g }||| kr²d}td|d ƒD ]|}|||  |kr- nq| ||| … }	d}
td|ƒD ]}|||  }| ||| … |	krRd}
 nq<|
r|}|||  }|| |kr…| ||| … |	kr…|d7 }||7 }|| |kr…| ||| … |	ksm| |	¡ | ˆ | |d … ||ƒ¡ |}d} nq!|r¡n| | | ¡ |d7 }||| ks|s½| | |d … ¡ d |¡S )Nrq   r   Fr6   TrÏ   )rR   r•   r±   rÐ   )r<   rÑ   r¶   rÓ   Úmin_repeat_charsr–   ÚresultÚfoundÚkÚpatternr©   ÚrepÚ	start_idxÚ	total_repÚ	end_index©Úfix_pattern_repeatsr=   r>   rà   l  sP   þ  þ
öâ 
z7detect_and_fix_repetitions.<locals>.fix_pattern_repeats©rÎ   r=   )ÚtextÚ	thresholdrÕ   Útext_rawr=   rß   r>   Údetect_and_fix_repetitionsZ  s   ,

rå   ÚrawÚuser_languagec                 C   sð   | du rdS t | ƒ ¡ }|sdS t|ƒ}|r||fS |}d}t|v }|r-| td¡\}}nd| ¡ fS | ¡ }d|v rG| ¡ }|sCdS d|fS d}| ¡ D ]$}	|	 ¡ }	|	sVqM|	 ¡ }
|
 t¡rq|	t	tƒd…  ¡ }|rot
|ƒ} nqM|| ¡ fS )aˆ  
    Parse Qwen3-ASR raw output into (language, text).

    Cases:
      - With tag: "language Chinese<asr_text>...."
      - With newlines: "language Chinese\n...\n<asr_text>...."
      - No tag: treat whole string as text.
      - "language None<asr_text>": treat as empty audio -> ("", "")

    If user_language is provided, language is forced to user_language and raw is treated as text-only
    (the model is expected to output plain transcription without metadata).

    Args:
        raw: Raw decoded string.
        user_language: Canonical language name if user forced language.

    Returns:
        Tuple[str, str]: (language, text)
    N)rÏ   rÏ   rÏ   r6   zlanguage none)r8   r9   rå   Ú_ASR_TEXT_TAGrV   r;   Ú
splitlinesrQ   Ú_LANG_PREFIXrR   r?   )ræ   rç   r<   Ú	meta_partÚ	text_partÚhas_tagÚ
meta_lowerÚtÚlangÚlineÚlowÚvalr=   r=   r>   Úparse_asr_outputž  sB   
ürô   Úlangsc                 C   sF   g }d}| D ]}|pd  ¡ }|sq||krq| |¡ |}qd |¡S )aM  
    Merge per-chunk languages into a compact comma-separated string,
    keeping order and removing consecutive duplicates and empty entries.

    Example:
      ["Chinese", "English", "English"] -> "Chinese,English"

    Args:
        langs: List of canonical language names.

    Returns:
        str: Merged language string.
    NrÏ   rU   )r9   r±   rÐ   )rõ   ÚoutÚprevrA   r=   r=   r>   Úmerge_languagesä  s   

rø   )r£   r¤   rá   rB   )5rW   rd   Úurllib.requestr`   Údataclassesr   Útypingr   r   r   r   r   r   Úurllib.parser	   rg   Únumpyri   Ú	soundfilerf   r8   rˆ   rk   Ú	AudioLikeÚ	MaybeListr‹   ÚMAX_ASR_INPUT_SECONDSÚMAX_FORCE_ALIGN_INPUT_SECONDSr²   r3   r¢   rè   rê   r?   r@   rE   rI   rM   rS   ÚbytesrY   rp   r{   rƒ   r   r’   r—   r™   r~   rÍ   rå   rô   rø   r=   r=   r=   r>   Ú<module>   sz   
 ÿÿ+$"ûÿþýüû
ú
YFþÿþ

ýF