o
    1º³iÌ*  ã                   @  sä   U d Z ddlmZ ddlZddlZddlmZ ddlmZ ddl	Z	ddl
Z
ddlmZ e e¡ZeG dd„ dƒƒZddlZe ¡ Zi Zd	ed
< dd„ Zd1dd„Zd2dd„Z	d3d4d d!„Z	d3d5d"d#„Z	$	%d6d7d*d+„Zd8d/d0„ZdS )9z²VAD-aware audio segmentation using Silero-VAD.

Produces speech segments between 3-30s with good duration distribution.
Cuts only at silence boundaries to avoid mid-word splits.
é    )ÚannotationsN)Ú	dataclass)ÚPath)Ú	VADConfigc                   @  s4   e Zd ZU ded< ded< ded< ed
dd„ƒZd	S )ÚSegmentÚfloatÚstart_sÚend_sútorch.TensorÚaudioÚreturnc                 C  s   | j | j S ©N)r	   r   )Úself© r   ú4/home/ubuntu/bench-codecs/codecbench/pipeline/vad.pyÚ
duration_s   s   zSegment.duration_sN)r   r   )Ú__name__Ú
__module__Ú__qualname__Ú__annotations__Úpropertyr   r   r   r   r   r      s   
 r   zdict[int, tuple]Ú_vad_modelsc                  C  s€   t  ¡ } | tvr<t* | tvr*tjjdddd\}}||ft| < W d  ƒ t|  S W d  ƒ t|  S 1 s7w   Y  t|  S )z°Get or create a per-thread VAD model instance.

    Silero-VAD has internal RNN state that isn't thread-safe.
    Each thread gets its own model to avoid state corruption.
    zsnakers4/silero-vadÚ
silero_vadT)Úrepo_or_dirÚmodelÚ
trust_repoN)Ú	threadingÚ	get_identr   Ú	_vad_lockÚtorchÚhubÚload)Útidr   Úutilsr   r   r   Ú	_load_vad'   s"   
ý
ùù
ÿør$   Úwavr
   ÚsrÚintÚcfgr   r   ú
list[dict]c              
   C  sj   t ƒ \}}|d }|dkrtj | |d¡} d}| jdkr |  ¡ } || |||j|j|jt	|j
d ƒd}|S )z1Run Silero-VAD and return speech timestamp dicts.r   i€>  é   iè  )Úsampling_rateÚ	thresholdÚmin_silence_duration_msÚspeech_pad_msÚmin_speech_duration_ms)r$   Ú
torchaudioÚ
functionalÚresampleÚndimÚsqueezer,   r-   r.   r'   Úmin_speech_duration_s)r%   r&   r(   r   r#   Úget_tsÚ
timestampsr   r   r   Úget_speech_timestamps:   s"   

ù	r8   r7   Útotal_samplesúlist[tuple[int, int]]c                 C  s|  t |j| ƒ}t |j| ƒ}| sg S g }| d d }| d d }tdt| ƒƒD ]B}	| |	 d }
| |	 d }|}|| }||krB|}q'|| }||krR| ||f¡ n|dkret|| ||ƒ}| ||f¡ |
}|}q'|| }||kry| ||f¡ g }|D ]>\}}|| }||kr‘| ||f¡ q}|}||k r»t |t dd¡ ƒ}t|| |ƒ}|| |krµ| ||f¡ |}||k s—q}|S )a+  Merge VAD speech chunks into segments within [min_s, max_s] range.

    Strategy: greedily accumulate consecutive speech chunks. When accumulated
    duration would exceed max_segment_s, cut at the last silence boundary.
    Random target durations give good distribution across [min_s, max_s].
    r   ÚstartÚendr*   g333333ã?g      ð?)	r'   Úmin_segment_sÚmax_segment_sÚrangeÚlenÚappendÚminÚrandomÚuniform)r7   r9   r&   r(   Úmin_samplesÚmax_samplesÚsegmentsÚcurrent_startÚcurrent_endÚiÚchunk_startÚ	chunk_endÚproposed_endÚproposed_durÚseg_durÚextendedÚ	final_durÚresultr;   r<   ÚdurÚposÚtargetÚseg_endr   r   r   Ú_merge_segments_to_targetV   sP   ú€rW   Ú
audio_pathú
Path | strúVADConfig | Noneúlist[Segment]c              	   C  sl  |du rt ƒ }t t| ƒ¡\}}|jd dkr|jddd}||jkr/tj |||j¡}|j}| 	¡ }|jd }|| }t
 d||¡ t|||ƒ}tdd„ |D ƒƒ| }t
 d	||d
| t|dƒ ¡ t||||ƒ}	g }
|	D ]\}}|dd…||…f }|
 t|| || |d¡ qndd„ |
D ƒ}|r®t
 dt|
ƒt|ƒt|ƒt|ƒt|ƒ t|ƒ¡ |
S t
 d| ¡ |
S )u‡   Full VAD pipeline: load audio â†’ detect speech â†’ create segments.

    Returns list of Segment objects with 2-30s speech audio.
    Nr   r*   T©ÚdimÚkeepdimz Audio loaded: %.1f s, %d samplesc                 s  s     | ]}|d  |d  V  qdS )r<   r;   Nr   )Ú.0Útsr   r   r   Ú	<genexpr>²   s   € z segment_audio.<locals>.<genexpr>z7VAD detected %.1f s speech out of %.1f s total (%.0f%%)éd   g{®Gáz„?©r   r	   r   c                 S  s   g | ]}|j ‘qS r   )r   )r_   Úsr   r   r   Ú
<listcomp>Á   s    z!segment_audio.<locals>.<listcomp>zCCreated %d segments: %.1f-%.1f s (mean %.1f s, total %.1f s usable)z$No valid speech segments found in %s)r   r0   r!   ÚstrÚshapeÚmeanÚsample_rater1   r2   r4   ÚloggerÚinfor8   ÚsumÚmaxrW   rA   r   r@   rB   Úwarning)rX   r(   r%   r&   Úwav_1dr9   Útotal_durationr7   Ú
speech_durÚ
seg_boundsrG   r;   r<   Úsegment_wavÚ	durationsr   r   r   Úsegment_audio™   sH   

ÿ
ýýþru   c              
   C  s  |du rt ƒ }| jdkr|  d¡} | jd dkr| jddd} ||jkr0tj | ||j¡} |j}|  	¡ }|jd }|| }|j
}|j}|j}||krSt|||||ƒ}	nt|||ƒ}	t|	|||ƒ}
g }|
D ]\}}| t|| || | dd…||…f d¡ qd|S )zASame as segment_audio but from an in-memory tensor [1, T] or [T].Nr*   r   Tr\   rc   )r   r3   Ú	unsqueezerg   rh   ri   r0   r1   r2   r4   Úchunk_threshold_sÚchunk_size_sÚchunk_overlap_sÚ_chunked_vadr8   rW   rA   r   )r%   r&   r(   ro   r9   r   rw   rx   Ú	overlap_sr7   rr   rG   r;   r<   r   r   r   Úsegment_tensorÎ   s6   




ýr|   ç     Àr@ç       @ro   rx   r   r{   c                   sT  ddl m}m} ˆjd }t|ˆ ƒ}t|ˆ ƒ}	||	 }
g }d}||k r@t|| |ƒ}| ||f¡ ||
7 }||kr<n||k s%t|ƒdkrLtˆˆˆƒS t	 
dt|ƒ|||ˆ ¡ d‡‡‡fd
d„‰ tt|ƒdƒ}dgt|ƒ }||dd%‰‡ ‡fdd„t|ƒD ƒ}||ƒD ]}|| }| ¡ ||< q‡W d  ƒ n1 sžw   Y  t||	ƒ}|S )u  Run VAD on audio chunks in parallel, merge results.

    Splits long audio into overlapping chunks, processes each in its own thread
    (each with its own Silero model), then merges timestamps with overlap dedup.
    For 2500s audio with 300s chunks: 36s â†’ ~4s (9x speedup).
    r   )ÚThreadPoolExecutorÚas_completedr*   z?Chunked VAD: %d chunks of %.0fs (%.1fs overlap) for %.1fs audiorK   r'   rL   r   r)   c                   sF   ˆ| |… }t |ˆˆ ƒ}|D ]}|d  | 7  < |d  | 7  < q|S )Nr;   r<   )r8   )rK   rL   Ú	chunk_wavr`   Út)r(   r&   ro   r   r   Ú
_vad_chunk  s   z _chunked_vad.<locals>._vad_chunké   NÚvad)Úmax_workersÚthread_name_prefixc                   s$   i | ]\}\}}ˆ  ˆ ||¡|“qS r   )Úsubmit)r_   rJ   r;   r<   )rƒ   Úpoolr   r   Ú
<dictcomp>+  s    
ÿÿz _chunked_vad.<locals>.<dictcomp>)rK   r'   rL   r'   r   r)   )Úconcurrent.futuresr   r€   rg   r'   rB   rA   r@   r8   rj   ÚdebugÚ	enumeraterR   Ú_merge_overlapping_timestamps)ro   r&   r(   rx   r{   r   r€   r9   Úchunk_samplesÚoverlap_samplesÚstep_samplesÚchunksrT   r<   r†   Úall_timestampsÚfuture_to_idxÚfutureÚidxÚmergedr   )rƒ   r(   r‰   r&   ro   r   rz   ù   sB   
ûÿ
þþû

rz   Úchunk_timestampsúlist[list[dict]]r   c           	      C  s¸   | sg S t | d ƒ}tdt| ƒƒD ]H}| | }|sq|s"| |¡ q|r*|d d nd}|r4|d d nd}|}|D ]}|d |krH| |¡ q:|d |krX| ||d dœ¡ q:q|S )a4  Merge timestamps from overlapping chunks, deduplicating the overlap regions.

    For each pair of adjacent chunks, timestamps in the overlap zone are resolved
    by keeping the earlier chunk's timestamps up to the midpoint of the overlap,
    and the later chunk's timestamps from the midpoint onward.
    r   r*   éÿÿÿÿr<   r;   )r;   r<   )Úlistr?   r@   ÚextendrA   )	r˜   r   rR   rJ   Únext_tsÚlast_end_prevÚfirst_start_nextÚcutoffr‚   r   r   r   rŽ   8  s*   

€ürŽ   )r%   r
   r&   r'   r(   r   r   r)   )
r7   r)   r9   r'   r&   r'   r(   r   r   r:   r   )rX   rY   r(   rZ   r   r[   )r%   r
   r&   r'   r(   rZ   r   r[   )r}   r~   )ro   r
   r&   r'   r(   r   rx   r   r{   r   r   r)   )r˜   r™   r   r'   r   r)   )Ú__doc__Ú
__future__r   ÚloggingrC   Údataclassesr   Úpathlibr   r   r0   Úcodecbench.pipeline.configr   Ú	getLoggerr   rj   r   r   ÚLockr   r   r   r$   r8   rW   ru   r|   rz   rŽ   r   r   r   r   Ú<module>   s4    



Eþ8ý/û?