o
    Ã¿i¼Ê  ã                
   @   sô  d Z ddlZddlZddlZddlmZ dejd< ddlmZm	Z	 ddl
mZmZmZmZmZ ddlmZ dd	lmZ dd
lmZmZmZmZ ddlmZmZmZmZ ddlmZ ddl m!Z!m"Z" z ddl#m$Z$ ddl%m&Z& ddl'm(Z( ddl)m*Z* ddl+m,Z, W n  e-y¡ Z. ze /de.› ¡ e /d¡ e0de.› ƒ‚dZ.[.ww de!dee1 fdd„Z2de!dee1 fdd„Z3eG dd„ deƒƒZ4eG dd„ deƒƒZ5e5Z6eG d d!„ d!eƒƒZ7G d"d#„ d#eƒZ8G d$d%„ d%eƒZ9G d&d'„ d'e9ƒZ:G d(d)„ d)e9ƒZ;dS )*al  Google Cloud Text-to-Speech service implementations.

This module provides integration with Google Cloud Text-to-Speech API,
offering both HTTP-based synthesis with SSML support and streaming synthesis
for real-time applications.

It also includes GeminiTTSService which uses Gemini's TTS-specific models
for natural voice control and multi-speaker conversations.
é    N)Ú
traced_ttsÚfalseÚGRPC_ENABLE_FORK_SUPPORT)Ú	dataclassÚfield)ÚAnyÚAsyncGeneratorÚListÚLiteralÚOptional)Úlogger)Ú	BaseModel)Ú
ErrorFrameÚFrameÚ
StartFrameÚTTSAudioRawFrame)Ú	NOT_GIVENÚTTSSettingsÚ	_NotGivenÚis_given)Ú
TTSService)ÚLanguageÚresolve_language)ÚClientOptions)Údefault)ÚGoogleAuthError)Útexttospeech_v1)Úservice_accountzException: z‰In order to use Google AI, you need to `pip install pipecat-ai[google]`. Also, set `GOOGLE_APPLICATION_CREDENTIALS` environment variable.zMissing module: ÚlanguageÚreturnc                 C   s  i t jd“t jd“t jd“t jd“t jd“t jd“t jd“t jd“t j	d“t j
d“t jd“t jd“t jd“t jd“t jd	“t jd	“t jd
“i t jd“t jd“t jd“t jd“t jd“t jd“t jd“t jd“t jd“t jd“t jd“t jd“t jd“t jd“t j d“t j!d“t j"d“¥i t j#d“t j$d“t j%d“t j&d“t j'd“t j(d“t j)d“t j*d“t j+d“t j,d“t j-d“t j.d“t j/d“t j0d“t j1d“t j2d“t j3d“¥i t j4d“t j5d“t j6d“t j7d“t j8d“t j9d “t j:d “t j;d!“t j<d!“t j=d!“t j>d"“t j?d"“t j@d#“t jAd#“t jBd$“t jCd$“t jDd%“¥i t jEd%“t jFd&“t jGd&“t jHd'“t jId'“t jJd(“t jKd(“t jLd)“t jMd)“t jNd*“t jOd+“t jPd+“t jQd,“t jRd,“t jSd-“t jTd-“t jUd.“¥t jVd.t jWd/t jXd/t jYd0t jZd0t j[d1t j\d1t j]d2t j^d2t j_d3t j`d3i¥}ta| |d4d5S )6a#  Convert a Language enum to Google TTS language code.

    Source:
    https://docs.cloud.google.com/text-to-speech/docs/chirp3-hd

    Args:
        language: The Language enum value to convert.

    Returns:
        The corresponding Google TTS language code, or None if not supported.
    zar-XAzbn-INúbg-BGúhr-HRúcs-CZúda-DKúnl-NLznl-BEúen-USúen-AUúen-GBúen-INúet-EEúfi-FIúfr-FRúfr-CAúde-DEúel-GRúgu-INúhe-ILúhi-INúhu-HUúid-IDúit-ITúja-JPúkn-INúko-KRúlv-LVúlt-LTúml-INúcmn-CNúmr-INúnb-NOúpl-PLúpt-BRúro-ROúru-RUúsr-RSúsk-SKúsl-SIúes-ESzes-USúsw-KEúsv-SEúta-INúte-INúth-THútr-TRúuk-UAzur-INúvi-VNF©Úuse_base_code)br   ÚARÚBNÚBN_INÚBGÚBG_BGÚHRÚHR_HRÚCSÚCS_CZÚDAÚDA_DKÚNLÚNL_BEÚNL_NLÚENÚEN_USÚEN_AUÚEN_GBÚEN_INÚETÚET_EEÚFIÚFI_FIÚFRÚFR_CAÚFR_FRÚDEÚDE_DEÚELÚEL_GRÚGUÚGU_INÚHEÚHE_ILÚHIÚHI_INÚHUÚHU_HUÚIDÚID_IDÚITÚIT_ITÚJAÚJA_JPÚKNÚKN_INÚKOÚKO_KRÚLVÚLV_LVÚLTÚLT_LTÚMLÚML_INÚZHÚZH_CNÚMRÚMR_INÚNOÚNBÚNB_NOÚPLÚPL_PLÚPTÚPT_BRÚROÚRO_ROÚRUÚRU_RUÚSRÚSR_RSÚSKÚSK_SKÚSLÚSL_SIÚESÚES_ESÚES_USÚSWÚSW_KEÚSVÚSV_SEÚTAÚTA_INÚTEÚTE_INÚTHÚTH_THÚTRÚTR_TRÚUKÚUK_UAÚURÚUR_INÚVIÚVI_VNr   ©r   ÚLANGUAGE_MAP© r²   úO/home/ubuntu/.local/lib/python3.10/site-packages/pipecat/services/google/tts.pyÚlanguage_to_google_tts_language>   st  þüûùø
öõóòðïíìëéèçæåãâ à!ß#Ý$Ü%Û'Ù(Ø*Ö+Õ-Ó.Ò0Ð1Ï3Í4Ì6Ê7É9Ç:Æ<Ä=Ã?Á@ÀB¾C½E»FºH¸I·KµL´N²O±Q¯R®T¬U«W©X¨Y§[¥\¤^¢_¡aŸbždœe›g™h˜j–k•m“n’pqrŽtŒu‹w‰xˆz†{…}ƒ~ ò r´   c                 C   sL  i t jd“t jd“t jd“t jd“t jd“t jd“t jd“t jd“t j	d“t j
d“t jd“t jd“t jd“t jd“t jd“t jd	“t jd	“i t jd
“t jd
“t jd“t jd“t jd“t jd“t jd“t jd“t jd“t jd“t jd“t jd“t jd“t jd“t j d“t j!d“t j"d“¥i t j#d“t j$d“t j%d“t j&d“t j'd“t j(d“t j)d“t j*d“t j+d“t j,d“t j-d“t j.d“t j/d“t j0d“t j1d“t j2d“t j3d“¥i t j4d“t j5d“t j6d“t j7d“t j8d“t j9d “t j:d “t j;d!“t j<d!“t j=d"“t j>d"“t j?d#“t j@d#“t jAd$“t jBd$“t jCd%“t jDd%“¥i t jEd&“t jFd&“t jGd'“t jHd'“t jId(“t jJd(“t jKd)“t jLd)“t jMd*“t jNd*“t jOd+“t jPd+“t jQd,“t jRd,“t jSd-“t jTd-“t jUd.“¥i t jVd.“t jWd/“t jXd/“t jYd0“t jZd0“t j[d1“t j\d1“t j]d2“t j^d2“t j_d3“t j`d3“t jad4“t jbd4“t jcd5“t jdd5“t jed6“t jfd6“¥i t jgd7“t jhd7“t jid8“t jjd8“t jkd9“t jld9“t jmd:“t jnd:“t jod;“t jpd;“t jqd<“t jrd<“t jsd<“t jtd=“t jud=“t jvd>“t jwd>“¥i t jxd?“t jyd?“t jzd@“t j{d@“t j|dA“t j}dA“t j~dB“t jdB“t j€dC“t jdD“t j‚dD“t jƒdE“t j„dE“t j…dF“t j†dF“t j‡dG“t jˆdG“¥i t j‰dH“t jŠdH“t j‹dI“t jŒdI“t jdJ“t jŽdJ“t jdK“t jdK“t j‘dL“t j’dL“t j“dM“t j”dN“t j•dO“t j–dO“t j—dP“t j˜dP“t j™dQ“¥t jšdQt j›dRt jœdRt jdSt jždSt jŸdTt j dTt j¡dUt j¢dUt j£dVt j¤dVt j¥dWt j¦dWi¥}t§| |dXdYS )Za8  Convert a Language enum to Gemini TTS language code.

    Source:
    https://docs.cloud.google.com/text-to-speech/docs/gemini-tts#available_languages

    Args:
        language: The Language enum value to convert.

    Returns:
        The corresponding Gemini TTS language code, or None if not supported.
    zaf-ZAzsq-ALzam-ETzar-EGzar-001zhy-AMzaz-AZzeu-ESzbe-BYzbn-BDr    zmy-MMzca-ESzceb-PHr;   zcmn-TWr!   r"   r#   r$   r%   r&   r'   r(   r)   zfil-PHr*   r+   r,   zgl-ESzka-GEr-   r.   r/   zht-HTr0   r1   r2   zis-ISr3   r4   r5   zjv-JVr6   zkok-INr7   zlo-LAzla-VAr8   r9   zlb-LUzmk-MKzmai-INzmg-MGzms-MYr:   r<   zmn-MNzne-NPr=   znn-NOzor-INzps-AFzfa-IRr>   r?   zpt-PTzpa-INr@   rA   rB   zsd-INzsi-LKrC   rD   rE   zes-419zes-MXrF   rG   rH   rI   rJ   rK   rL   zur-PKrM   FrN   )¨r   ÚAFÚAF_ZAÚSQÚSQ_ALÚAMÚAM_ETrP   ÚAR_EGÚAR_001ÚHYÚHY_AMÚAZÚAZ_AZÚEUÚEU_ESÚBEÚBE_BYrQ   ÚBN_BDrS   rT   ÚMYÚMY_MMÚCAÚCA_ESÚCEBÚCEB_PHr†   r‡   ÚZH_TWrU   rV   rW   rX   rY   rZ   r[   r]   r^   r_   r`   ra   rb   rc   rd   ÚFILÚFIL_PHre   rf   rg   ri   rh   ÚGLÚGL_ESÚKAÚKA_GErj   rk   rl   rm   rn   ro   ÚHTÚHT_HTrp   rq   rr   rs   rt   ru   ÚISÚIS_ISrv   rw   rx   ry   rz   r{   ÚJVÚJV_JVr|   r}   ÚKOKÚKOK_INr~   r   ÚLOÚLO_LAÚLAÚLA_VAr€   r   r‚   rƒ   ÚLBÚLB_LUÚMKÚMK_MKÚMAIÚMAI_INÚMGÚMG_MGÚMSÚMS_MYr„   r…   rˆ   r‰   ÚMNÚMN_MNÚNEÚNE_NPrŠ   r‹   rŒ   ÚNNÚNN_NOÚORÚOR_INÚPSÚPS_AFÚFAÚFA_IRr   rŽ   r   r   ÚPT_PTÚPAÚPA_INr‘   r’   r“   r”   r•   r–   ÚSDÚSD_INÚSIÚSI_LKr—   r˜   r™   rš   r›   rœ   ÚES_419ÚES_MXrž   rŸ   r    r¡   r¢   r£   r¤   r¥   r¦   r§   r¨   r©   rª   r«   r¬   ÚUR_PKr®   r¯   r   r°   r²   r²   r³   Úlanguage_to_gemini_tts_languageÝ   s–  þýûúø	÷õôóñðîíëêèçåäâá!ß"Þ$Ü%Û'Ù(Ø*Ö+Õ,Ô.Ò/Ñ1Ï2Î4Ì5Ë7É8È:Æ;Å<Ä=Ã>Â@ÀA¿C½D¼FºG¹I·J¶KµM³N²P°Q¯S­T¬VªW©Y§Z¦\¤]£_¡` bžce›fšh˜i—k•l”n’o‘qrŽtŒu‹w‰xˆz†{…}ƒ~‚  ÿ  þ  ü  û  ù  ø 
 ö  õ  ó  ò  ð  ï  í  ì  ê  é  ç  æ  ä  ã  á   à " Þ # Ý % Û & Ú ( Ø ) × * Ö + Õ , Ô . Ò / Ñ 1 Ï 2 Î 4 Ì 5 Ë 7 É 8 È : Æ ; Å < Ä > Â ? Á A ¿ B ¾ D ¼ E » G ¹ H ¸ J ¶ K µ M ³ N ² P ° Q ¯ S ­ T ¬ V ª W © X ¨ Y § [ ¥ \ ¤ ^ ¢ _ ¡ a Ÿ b Œ wrÿ   c                   @   sð   e Zd ZU dZedd„ dZedB eB ed< edd„ dZ	edB eB ed< ed	d„ dZ
edB eB ed
< edd„ dZedB eB ed< edd„ dZed dB eB ed< edd„ dZed dB eB ed< edd„ dZed dB eB ed< dS )ÚGoogleHttpTTSSettingsa1  Settings for GoogleHttpTTSService.

    Parameters:
        pitch: Voice pitch adjustment (e.g., "+2st", "-50%").
        rate: Speaking rate adjustment (e.g., "slow", "fast", "125%"). Used for
            SSML prosody tags (non-Chirp voices).
        speaking_rate: Speaking rate for AudioConfig (Chirp/Journey voices).
            Range [0.25, 2.0].
        volume: Volume adjustment (e.g., "loud", "soft", "+6dB").
        emphasis: Emphasis level for the text.
        gender: Voice gender preference.
        google_style: Google-specific voice style.
    c                   C   ó   t S ©N©r   r²   r²   r²   r³   Ú<lambda>ò  ó    zGoogleHttpTTSSettings.<lambda>©Údefault_factoryNÚpitchc                   C   r  r  r  r²   r²   r²   r³   r  ó  r  Úratec                   C   r  r  r  r²   r²   r²   r³   r  ô  r  Úspeaking_ratec                   C   r  r  r  r²   r²   r²   r³   r  õ  r  Úvolumec                   C   r  r  r  r²   r²   r²   r³   r  ÷  r  ©ÚstrongÚmoderateÚreducedÚnoneÚemphasisc                   C   r  r  r  r²   r²   r²   r³   r  ú  r  ©ÚmaleÚfemaleÚneutralÚgenderc                   C   r  r  r  r²   r²   r²   r³   r  þ  r  ©Ú
apologeticÚcalmÚ
empatheticÚfirmÚlivelyÚgoogle_style)Ú__name__Ú
__module__Ú__qualname__Ú__doc__r   r  Ústrr   Ú__annotations__r	  r
  Úfloatr  r  r
   r  r  r²   r²   r²   r³   r   â  s    
 ÿÿþ
ÿr   c                   @   s0   e Zd ZU dZedd„ dZedB eB ed< dS )ÚGoogleTTSSettingszxSettings for GoogleTTSService.

    Parameters:
        speaking_rate: The speaking rate, in the range [0.25, 2.0].
    c                   C   r  r  r  r²   r²   r²   r³   r  	  r  zGoogleTTSSettings.<lambda>r  Nr
  )	r  r  r   r!  r   r
  r$  r   r#  r²   r²   r²   r³   r%    s   
 "r%  c                   @   st   e Zd ZU dZedd„ dZedB eB ed< edd„ dZ	e
eB ed< ed	d„ dZeeeef  dB eB ed
< dS )ÚGeminiTTSSettingsa  Settings for GeminiTTSService.

    Parameters:
        prompt: Optional style instructions for how to synthesize the content.
        multi_speaker: Whether to enable multi-speaker support.
        speaker_configs: List of speaker configurations for multi-speaker mode.
    c                   C   r  r  r  r²   r²   r²   r³   r    r  zGeminiTTSSettings.<lambda>r  NÚpromptc                   C   r  r  r  r²   r²   r²   r³   r    r  Úmulti_speakerc                   C   r  r  r  r²   r²   r²   r³   r    r  Úspeaker_configs)r  r  r   r!  r   r'  r"  r   r#  r(  Úboolr)  ÚlistÚdictr   r²   r²   r²   r³   r&    s   
 &ÿr&  c                       s   e Zd ZU dZeZeed< G dd„ deƒZddddddddœde	e
 de	e
 d	e	e
 d
e	e
 de	e de	e de	e f‡ fdd„Zde	e
 de	e
 dejfdd„Zdefdd„Zdede	e
 fdd„Zdedee
ef f‡ fdd„Zde
de
fdd„Zede
de
deedf fdd „ƒZ‡  ZS )!ÚGoogleHttpTTSServicea;  Google Cloud Text-to-Speech HTTP service with SSML support.

    Provides text-to-speech synthesis using Google Cloud's HTTP API with
    comprehensive SSML support for voice customization, prosody control,
    and styling options. Ideal for applications requiring fine-grained
    control over speech output.

    Note:
        Requires Google Cloud credentials via service account JSON, credentials file,
        or default application credentials (GOOGLE_APPLICATION_CREDENTIALS).
        Chirp and Journey voices don't support SSML and will use plain text input.
    Ú	_settingsc                   @   s    e Zd ZU dZdZee ed< dZee ed< dZ	ee
 ed< dZee ed< dZeed  ed< ejZee ed	< dZeed
  ed< dZeed  ed< dS )z GoogleHttpTTSService.InputParamsa  Input parameters for Google HTTP TTS voice customization.

        .. deprecated:: 0.0.105
            Use ``GoogleHttpTTSService.Settings`` directly via the ``settings`` parameter instead.

        Parameters:
            pitch: Voice pitch adjustment (e.g., "+2st", "-50%").
            rate: Speaking rate adjustment (e.g., "slow", "fast", "125%"). Used for SSML prosody tags (non-Chirp voices).
            speaking_rate: Speaking rate for AudioConfig (Chirp/Journey voices). Range [0.25, 2.0].
            volume: Volume adjustment (e.g., "loud", "soft", "+6dB").
            emphasis: Emphasis level for the text.
            language: Language for synthesis. Defaults to English.
            gender: Voice gender preference.
            google_style: Google-specific voice style.
        Nr  r	  r
  r  r  r  r   r  r  r  r  )r  r  r   r!  r  r   r"  r#  r	  r
  r$  r  r  r
   r   r^   r   r  r  r²   r²   r²   r³   ÚInputParams3  s   
 r/  N)ÚcredentialsÚcredentials_pathÚlocationÚvoice_idÚsample_rateÚparamsÚsettingsr0  r1  r2  r3  r4  r5  r6  c          
         s$  | j ddddddddddd
}	|dur|  dd¡ ||	_|duro|  d¡ |so|jdur0|j|	_|jdur9|j|	_|jdurB|j|	_|jdurK|j|	_|jdurT|j|	_|jdur]|j|	_|j	durf|j	|	_	|j
duro|j
|	_
|durx|	 |¡ tƒ jd
|dd|	d	œ|¤Ž || _|  ||¡| _dS )a	  Initializes the Google HTTP TTS service.

        Args:
            credentials: JSON string containing Google Cloud service account credentials.
            credentials_path: Path to Google Cloud service account JSON file.
            location: Google Cloud location for regional endpoint (e.g., "us-central1").
            voice_id: Google TTS voice identifier (e.g., "en-US-Standard-A").

                .. deprecated:: 0.0.105
                    Use ``settings=GoogleHttpTTSService.Settings(voice=...)`` instead.

            sample_rate: Audio sample rate in Hz. If None, uses default.
            params: Voice customization parameters including pitch, rate, volume, etc.

                .. deprecated:: 0.0.105
                    Use ``settings=GoogleHttpTTSService.Settings(...)`` instead.

            settings: Runtime-updatable settings. When provided alongside deprecated
                parameters, ``settings`` values take precedence.
            **kwargs: Additional arguments passed to parent TTSService.
        Núen-US-Chirp3-HD-Charonr%   )
ÚmodelÚvoicer   r  r	  r
  r  r  r  r  r3  r9  r5  T©r4  Úpush_start_frameÚpush_stop_framesr6  r²   )ÚSettingsÚ"_warn_init_param_moved_to_settingsr9  r  r	  r
  r  r  r   r  r  Úapply_updateÚsuperÚ__init__Ú	_locationÚ_create_clientÚ_client)
Úselfr0  r1  r2  r3  r4  r5  r6  ÚkwargsÚdefault_settings©Ú	__class__r²   r³   rA  M  s`   "ö









üû
ÿzGoogleHttpTTSService.__init__r   c                 C   ó   d}|rt  |¡}tj |¡}n|rtj |¡}nz
tdgd\}}W n	 ty,   Y nw |s3tdƒ‚d}| j	rAt
| j	› dd}tj||dS ©ao  Create authenticated Google Text-to-Speech client.

        Args:
            credentials: JSON string with service account credentials.
            credentials_path: Path to service account JSON file.

        Returns:
            Authenticated TextToSpeechAsyncClient instance.

        Raises:
            ValueError: If no valid credentials are provided.
        Nz.https://www.googleapis.com/auth/cloud-platform)ÚscopeszNo valid credentials provided.z-texttospeech.googleapis.com)Úapi_endpoint)r0  Úclient_options©ÚjsonÚloadsr   ÚCredentialsÚfrom_service_account_infoÚfrom_service_account_filer   r   Ú
ValueErrorrB  r   r   ÚTextToSpeechAsyncClient©rE  r0  r1  ÚcredsÚjson_account_infoÚ
project_idrN  r²   r²   r³   rC  §  ó.   
ÿÿ
ÿÿz#GoogleHttpTTSService._create_clientc                 C   ó   dS )z›Check if this service can generate processing metrics.

        Returns:
            True, as Google HTTP TTS service supports metrics generation.
        Tr²   ©rE  r²   r²   r³   Úcan_generate_metricsÔ  ó   z)GoogleHttpTTSService.can_generate_metricsr   c                 C   ó   t |ƒS ©zÜConvert a Language enum to Google TTS language format.

        Args:
            language: The language to convert.

        Returns:
            The Google TTS-specific language code, or None if not supported.
        ©r´   ©rE  r   r²   r²   r³   Úlanguage_to_service_languageÜ  ó   	z1GoogleHttpTTSService.language_to_service_languageÚdeltac                 ƒ   ób   t || jƒr(t|jƒr(t|jƒ}d|  krdks(n t d|› d¡ t|_tƒ  	|¡I dH S ©zŒOverride to handle speaking_rate validation.

        Args:
            delta: Settings delta. Can include 'speaking_rate' (float).
        g      Ð?g       @zInvalid speaking_rate value: z. Must be between 0.25 and 2.0N©
Ú
isinstancer=  r   r
  r$  r   Úwarningr   r@  Ú_update_settings©rE  rf  Ú
rate_valuerH  r²   r³   rl  ç  ó   €

ÿz%GoogleHttpTTSService._update_settingsÚtextc                 C   sT  d}d| j j› dg}| j j}| d|› d¡ | j jr'| d| j j› d¡ |dd |¡› d7 }g }| j jrC| d	| j j› d¡ | j jrR| d
| j j› d¡ | j jra| d| j j› d¡ |rn|dd |¡› d7 }| j j	r||d| j j	› d7 }| j j
rŠ|d| j j
› d7 }||7 }| j j
r–|d7 }| j j	rž|d7 }|r¤|d7 }|d7 }|S )Nz<speak>zname='ú'z
language='zgender='z<voice ú ú>zpitch='zrate='zvolume='z	<prosody z<emphasis level='z'>z<google:style name='z</google:style>z</emphasis>z
</prosody>z</voice></speak>)r.  r9  r   Úappendr  Újoinr  r	  r  r  r  )rE  rp  ÚssmlÚvoice_attrsr   Úprosody_attrsr²   r²   r³   Ú_construct_ssmlö  s:   z$GoogleHttpTTSService._construct_ssmlÚ
context_idc              
   C  s¢  t  | › d|› d¡ z¤d| jj ¡ v }d| jj ¡ v }|s!|r(tj|d}n|  |¡}tj|d}tj| jj	| jjd}tj
j| jdœ}|sJ|rV| jjd	urV| jj|d
< tjdi |¤Ž}	tj|||	d}
| jj|
dI d	H }|  |¡I d	H  |jdd	… }| j}tdt|ƒ|ƒD ]#}|||| … }|sš W d	S |  ¡ I d	H  t|| jd|d}|V  qŠW d	S  tyÐ } zdt|ƒ› }t|dV  W Y d	}~d	S d	}~ww )a  Generate speech from text using Google's HTTP TTS API.

        Args:
            text: The text to synthesize into speech.
            context_id: The context ID for tracking audio frames.

        Yields:
            Frame: Audio frames containing the synthesized speech.
        ú: Generating TTS [ú]ÚchirpÚjourney)rp  )rv  ©Úlanguage_codeÚname©Úaudio_encodingÚsample_rate_hertzNr
  )Úinputr9  Úaudio_config)Úrequesté,   r   é   ©rz  úTTS generation error: ©Úerrorr²   )r   Údebugr.  r9  Úlowerr   ÚSynthesisInputry  ÚVoiceSelectionParamsr   ÚAudioEncodingÚLINEAR16r4  r
  ÚAudioConfigÚSynthesizeSpeechRequestrD  Úsynthesize_speechÚstart_tts_usage_metricsÚaudio_contentÚ
chunk_sizeÚrangeÚlenÚstop_ttfb_metricsr   Ú	Exceptionr"  r   )rE  rp  rz  Úis_chirp_voiceÚis_journey_voiceÚsynthesis_inputrv  r9  Úaudio_config_paramsr†  r‡  Úresponser˜  Ú
CHUNK_SIZEÚiÚchunkÚframeÚeÚerror_messager²   r²   r³   Úrun_tts$  sL   €
ÿþÿú€þzGoogleHttpTTSService.run_tts)r  r  r   r!  r   r=  r#  r   r/  r   r"  ÚintrA  r   rV  rC  r*  r^  r   rd  r   r,  r   rl  ry  r   r   r   r©  Ú__classcell__r²   r²   rH  r³   r-  "  sP   
 ÷ýüûúùø	÷Zÿÿ
þ-.(r-  c                   @   s„   e Zd ZdZdee dee dejfdd„Zde	fdd„Z
d	edee fd
d„Z	ddejdededee deedf f
dd„ZdS )ÚGoogleBaseTTSServicezáBase class for Google Cloud Text-to-Speech streaming services.

    Provides shared streaming synthesis logic for Google TTS services.
    This is an abstract base class. Use GoogleTTSService or GeminiTTSService instead.
    r0  r1  r   c                 C   rJ  rK  rO  rW  r²   r²   r³   rC  n  r[  z#GoogleBaseTTSService._create_clientc                 C   r\  )z Check if this service can generate processing metrics.

        Returns:
            True, as Google streaming TTS services support metrics generation.
        Tr²   r]  r²   r²   r³   r^  ›  r_  z)GoogleBaseTTSService.can_generate_metricsr   c                 C   r`  ra  rb  rc  r²   r²   r³   rd  £  re  z1GoogleBaseTTSService.language_to_service_languageNÚstreaming_configrp  rz  r'  c                   sò   t j|d‰ ‡ ‡‡fdd„}| j |ƒ ¡I dH }|  ˆ¡I dH  d}d}| j}	|2 z=3 dH W }
|
j}|s6q*|sA|  ¡ I dH  d}||7 }t|ƒ|	krg|d|	… }||	d… }t	|| j
d|d	V  t|ƒ|	ksKq*6 |rwt	|| j
d|d	V  dS dS )
a|  Shared streaming synthesis logic.

        Args:
            streaming_config: The streaming configuration.
            text: The text to synthesize.
            context_id: Unique identifier for this TTS context.
            prompt: Optional prompt for style instructions (Gemini only).

        Yields:
            Frame: Audio frames containing the synthesized speech.
        )r­  c                    s>   ˆ V  dˆi} ˆd urˆ| d< t jt jdi | ¤ŽdV  d S )Nrp  r'  )r…  r²   )r   ÚStreamingSynthesizeRequestÚStreamingSynthesisInput)Úsynthesis_input_params©Úconfig_requestr'  rp  r²   r³   Úrequest_generatorÄ  s   €ÿz;GoogleBaseTTSService._stream_tts.<locals>.request_generatorNó    FTr‰  rŠ  )r   r®  rD  Ústreaming_synthesizer—  r™  r˜  rœ  r›  r   r4  )rE  r­  rp  rz  r'  r³  Ústreaming_responsesÚaudio_bufferÚfirst_chunk_for_ttfbr£  r¢  r¥  Úpiecer²   r±  r³   Ú_stream_tts®  s8   €ÿ	ý€öÿz GoogleBaseTTSService._stream_ttsr  )r  r  r   r!  r   r"  r   rV  rC  r*  r^  r   rd  ÚStreamingSynthesizeConfigr   r   rº  r²   r²   r²   r³   r¬  g  s.    ÿÿ
þ-ûþýüû
úr¬  c                       sÔ   e Zd ZU dZeZeed< G dd„ deƒZdddddddddœde	e
 de	e
 d	e	e
 d
e	e
 de	e
 de	e de	e de	e f‡ fdd„Zdedee
ef f‡ fdd„Zede
de
deedf fdd„ƒZ‡  ZS )ÚGoogleTTSServicea*  Google Cloud Text-to-Speech streaming service.

    Provides real-time text-to-speech synthesis using Google Cloud's streaming API
    for low-latency applications. Optimized for Chirp 3 HD and Journey voices
    with continuous audio streaming capabilities.

    Note:
        Requires Google Cloud credentials via service account JSON, file path, or
        default application credentials (GOOGLE_APPLICATION_CREDENTIALS env var).
        Only Chirp 3 HD and Journey voices are supported. Use GoogleHttpTTSService for other voices.

    Example::

        tts = GoogleTTSService(
            credentials_path="/path/to/service-account.json",
            settings=GoogleTTSService.Settings(
                voice="en-US-Chirp3-HD-Charon",
                language=Language.EN_US,
            )
        )
    r.  c                   @   s4   e Zd ZU dZejZee ed< dZ	ee
 ed< dS )zGoogleTTSService.InputParamsaa  Input parameters for Google streaming TTS configuration.

        .. deprecated:: 0.0.105
            Use ``GoogleTTSService.Settings`` directly via the ``settings`` parameter instead.

        Parameters:
            language: Language for synthesis. Defaults to English.
            speaking_rate: The speaking rate, in the range [0.25, 2.0].
        r   Nr
  )r  r  r   r!  r   r^   r   r   r#  r
  r$  r²   r²   r²   r³   r/    s   
 
r/  N)r0  r1  r2  r3  Úvoice_cloning_keyr4  r5  r6  r0  r1  r2  r3  r½  r4  r5  r6  c                   s²   | j ddddd}
|dur|  dd¡ ||
_|dur3|  d¡ |s3|jdur*|j|
_|jdur3|j|
_|dur<|
 |¡ tƒ jd
|dd|
d	œ|	¤Ž || _|| _	|  
||¡| _dS )a<  Initializes the Google streaming TTS service.

        Args:
            credentials: JSON string containing Google Cloud service account credentials.
            credentials_path: Path to Google Cloud service account JSON file.
            location: Google Cloud location for regional endpoint (e.g., "us-central1").
            voice_id: Google TTS voice identifier (e.g., "en-US-Chirp3-HD-Charon").

                .. deprecated:: 0.0.105
                    Use ``settings=GoogleTTSService.Settings(voice=...)`` instead.

            voice_cloning_key: The voice cloning key for Chirp 3 custom voices.
            sample_rate: Audio sample rate in Hz. If None, uses default.
            params: Language configuration parameters.

                .. deprecated:: 0.0.105
                    Use ``settings=GoogleTTSService.Settings(...)`` instead.

            settings: Runtime-updatable settings. When provided alongside deprecated
                parameters, ``settings`` values take precedence.
            **kwargs: Additional arguments passed to parent TTSService.
        Nr7  r%   )r8  r9  r   r
  r3  r9  r5  Tr:  r²   )r=  r>  r9  r   r
  r?  r@  rA  rB  Ú_voice_cloning_keyrC  rD  )rE  r0  r1  r2  r3  r½  r4  r5  r6  rF  rG  rH  r²   r³   rA    s>   $ü



üû
ÿzGoogleTTSService.__init__rf  r   c                 ƒ   rg  rh  ri  rm  rH  r²   r³   rl  [  ro  z!GoogleTTSService._update_settingsrp  rz  c              
   C  sê   t  | › d|› d¡ zF| jr!tj| jd}tj| jj|d}ntj| jj| jjd}tj	|tj
tjj| j| jjdd}|  |||¡2 z	3 dH W }|V  qE6 W dS  tyt } z| jd	t|ƒ› |d
I dH  W Y d}~dS d}~ww )a7  Generate streaming speech from text using Google's streaming API.

        Args:
            text: The text to synthesize into speech.
            context_id: The context ID for tracking audio frames.

        Yields:
            Frame: Audio frames containing the synthesized speech as it's generated.
        r{  r|  )r½  )r€  Úvoice_cloner  )rƒ  r„  r
  ©r9  Ústreaming_audio_configNr‹  )Ú	error_msgÚ	exception)r   rŽ  r¾  r   ÚVoiceCloneParamsr‘  r.  r   r9  r»  ÚStreamingAudioConfigr’  ÚPCMr4  r
  rº  r  Ú
push_errorr"  )rE  rp  rz  Úvoice_clone_paramsr9  r­  r¦  r§  r²   r²   r³   r©  j  s8   €ÿÿÿýþ
ÿ,€ÿzGoogleTTSService.run_tts)r  r  r   r!  r%  r=  r#  r   r/  r   r"  rª  rA  r   r,  r   rl  r   r   r   r©  r«  r²   r²   rH  r³   r¼  è  sB   
 öýüûúùø	÷
öK(r¼  c                       s  e Zd ZU dZeZeed< dZg d¢ZG dd„ de	ƒZ
ddddddddddœ	d	ee d
ee dee dee dee dee dee dee
 dee f‡ fdd„Zdedee fdd„Zdef‡ fdd„Zdedeeef f‡ fdd„Zedededeedf fd d!„ƒZ‡  ZS )"ÚGeminiTTSServiceaÅ  Gemini Text-to-Speech streaming service using Gemini TTS models.

    Provides real-time text-to-speech synthesis using Gemini's TTS-specific models
    (gemini-2.5-flash-tts and gemini-2.5-pro-tts) with support for natural
    voice control, prompts for style instructions, expressive markup tags,
    and multi-speaker conversations.

    Note:
        Requires Google Cloud credentials via service account JSON, credentials file,
        or default application credentials (GOOGLE_APPLICATION_CREDENTIALS).

        Uses the Google Cloud Text-to-Speech streaming API for low-latency synthesis.

    Example::

        tts = GeminiTTSService(
            credentials_path="/path/to/service-account.json",
            settings=GeminiTTSService.Settings(
                model="gemini-2.5-flash-tts",
                voice="Kore",
                language=Language.EN_US,
                prompt="Say this in a friendly and helpful tone"
            )
        )
    r.  iÀ]  )ÚAchernarÚAchirdÚAlgenibÚAlgiebaÚAlnilamÚAoedeÚAutonoeÚ	CallirhoeÚCharonÚDespinaÚ	EnceladusÚErinomeÚFenrirÚGacruxÚIapetusÚKoreÚ	LaomedeiaÚLedaÚOrusÚPuckÚPulcherrimaÚ
RasalgethiÚ	SadachbiaÚ
SadaltagerÚSchedarÚSulafarÚUmbrielÚVindemiatrixÚZephyrÚZubenelgenubic                   @   sT   e Zd ZU dZejZee ed< dZ	ee
 ed< dZeed< dZeee  ed< dS )zGeminiTTSService.InputParamsaú  Input parameters for Gemini TTS configuration.

        .. deprecated:: 0.0.105
            Use ``GeminiTTSService.Settings`` directly via the ``settings`` parameter instead.

        Parameters:
            language: Language for synthesis. Defaults to English.
            prompt: Optional style instructions for how to synthesize the content.
            multi_speaker: Whether to enable multi-speaker support.
            speaker_configs: List of speaker configurations for multi-speaker mode.
        r   Nr'  Fr(  r)  )r  r  r   r!  r   r^   r   r   r#  r'  r"  r(  r*  r)  r	   r,  r²   r²   r²   r³   r/  Ù  s   
 r/  N)	Úapi_keyr8  r0  r1  r2  r3  r4  r5  r6  rè  r8  r0  r1  r2  r3  r4  r5  r6  c       	            sN  |durt jdtdd |r || jkr t d| j› d|› d¡ | jdd	d
dddd}|dur8|  dd¡ ||_|durE|  dd¡ ||_	|j	| j
vrUt d|j	› d¡ |dur„|  d¡ |	s„|jduri|j|_|jdurr|j|_|jdur{|j|_|jdur„|j|_|	dur| |	¡ tƒ jd|dd|dœ|
¤Ž || _|  ||¡| _dS )a¾  Initializes the Gemini TTS service.

        Args:
            api_key:

                .. deprecated:: 0.0.95
                    The `api_key` parameter is deprecated. Use `credentials` or
                    `credentials_path` instead for Google Cloud authentication.

            model: Gemini TTS model to use. Must be a TTS model like
                   "gemini-2.5-flash-tts" or "gemini-2.5-pro-tts".

                .. deprecated:: 0.0.105
                    Use ``settings=GeminiTTSService.Settings(model=...)`` instead.

            credentials: JSON string containing Google Cloud service account credentials.
            credentials_path: Path to Google Cloud service account JSON file.
            location: Google Cloud location for regional endpoint (e.g., "us-central1").
            voice_id: Voice name from the available Gemini voices.

                .. deprecated:: 0.0.105
                    Use ``settings=GeminiTTSService.Settings(voice=...)`` instead.

            sample_rate: Audio sample rate in Hz. If None, uses Google's default 24kHz.
            params: TTS configuration parameters.

                .. deprecated:: 0.0.105
                    Use ``settings=GeminiTTSService.Settings(...)`` instead.

            settings: Runtime-updatable settings. When provided alongside deprecated
                parameters, ``settings`` values take precedence.
            **kwargs: Additional arguments passed to parent TTSService.
        NzŸThe 'api_key' parameter is deprecated and will be removed in a future version. Use 'credentials' or 'credentials_path' instead for Google Cloud authentication.é   )Ú
stacklevelzGoogle TTS only supports ú Hz sample rate. Current rate of úHz may cause issues.zgemini-2.5-flash-ttsrÙ  r%   F)r8  r9  r   r'  r(  r)  r8  r3  r9  úVoice 'ú)' not in known voices list. Using anyway.r5  Tr:  r²   )ÚwarningsÚwarnÚDeprecationWarningÚGOOGLE_SAMPLE_RATEr   rk  r=  r>  r8  r9  ÚAVAILABLE_VOICESr   r'  r(  r)  r?  r@  rA  rB  rC  rD  )rE  rè  r8  r0  r1  r2  r3  r4  r5  r6  rF  rG  rH  r²   r³   rA  ë  sn   0ü
ÿÿú
ÿ





üû
ÿzGeminiTTSService.__init__r   r   c                 C   r`  )zÜConvert a Language enum to Gemini TTS language format.

        Args:
            language: The language to convert.

        Returns:
            The Gemini TTS-specific language code, or None if not supported.
        )rÿ   rc  r²   r²   r³   rd  ^  re  z-GeminiTTSService.language_to_service_languager¦  c                 ƒ   sD   t ƒ  |¡I dH  | j| jkr t d| j› d| j› d¡ dS dS )z~Start the Gemini TTS service.

        Args:
            frame: The start frame containing initialization parameters.
        NzGoogle TTS requires rë  rì  )r@  Ústartr4  rò  r   rk  )rE  r¦  rH  r²   r³   rô  i  s   €
ÿÿÿzGeminiTTSService.startrf  c                 ƒ   s>   t |jƒr|j| jvrt d|j› d¡ tƒ  |¡I dH S )zåApply a settings delta with voice validation.

        Args:
            delta: Settings delta. Can include 'voice', 'prompt', etc.

        Returns:
            Dict mapping changed field names to their previous values.
        rí  rî  N)r   r9  ró  r   rk  r@  rl  )rE  rf  rH  r²   r³   rl  v  s   €	z!GeminiTTSService._update_settingsrp  rz  c              
   C  s0  t  | › d|› d¡ zk| jjrC| jjrCg }| jjD ]}| tj|d | d| jj	¡d¡ qtj
|d}tj| jj| jj|d}ntj| jj| jj	| jjd}tj|tjtjj| jd	d
}|  |||| jj¡2 z	3 dH W }|V  qj6 W dS  ty— }	 zdt|	ƒ› }
t|
dV  W Y d}	~	dS d}	~	ww )aš  Generate streaming speech from text using Gemini TTS models.

        Args:
            text: The text to synthesize into speech.
            context_id: The context ID for tracking audio frames. Can include markup tags
                  like [sigh], [laughing], [whispering] for expressive control.

        Yields:
            Frame: Audio frames containing the synthesized speech as it's generated.
        r{  r|  Úspeaker_aliasÚ
speaker_id)rõ  rö  )Úspeaker_voice_configs)r€  Ú
model_nameÚmulti_speaker_voice_config)r€  r  rø  r‚  rÀ  NzGemini TTS generation error: rŒ  )r   rŽ  r.  r(  r)  rt  r   ÚMultispeakerPrebuiltVoiceÚgetr9  ÚMultiSpeakerVoiceConfigr‘  r   r8  r»  rÅ  r’  rÆ  r4  rº  r'  r  r"  r   )rE  rp  rz  r÷  Úspeaker_configrù  r9  r­  r¦  r§  r¨  r²   r²   r³   r©  „  sT   €þÿÿýýþþ	ÿý€þzGeminiTTSService.run_tts)r  r  r   r!  r&  r=  r#  rò  ró  r   r/  r   r"  rª  rA  r   rd  r   rô  r   r,  r   rl  r   r   r   r©  r«  r²   r²   rH  r³   rÉ  —  sP   
 !õýüûúùø	÷
öõs(rÉ  )<r!  rP  Úosrï  Ú(pipecat.utils.tracing.service_decoratorsr   ÚenvironÚdataclassesr   r   Útypingr   r   r	   r
   r   Úlogurur   Úpydanticr   Úpipecat.frames.framesr   r   r   r   Úpipecat.services.settingsr   r   r   r   Úpipecat.services.tts_servicer   Úpipecat.transcriptions.languager   r   Úgoogle.api_core.client_optionsr   Úgoogle.authr   Úgoogle.auth.exceptionsr   Úgoogle.cloudr   Úgoogle.oauth2r   ÚModuleNotFoundErrorr§  r  r  r"  r´   rÿ   r   r%  ÚGoogleStreamTTSSettingsr&  r-  r¬  r¼  rÉ  r²   r²   r²   r³   Ú<module>   s`   

ÿ€û      G  0