o Ã¿ir$ã@súUdZddlmZmZddlmZmZmZmZddl m Z ddlmZm Z ddlmZddlmZmZmZmZddlmZmZmZdd lmZdd lmZedZdd ddddddddddddœ Zeeefe d<eGdd„deƒƒZ!Gdd„deƒZ"dS)z¯OpenAI text-to-speech service implementation. This module provides integration with OpenAI's text-to-speech API for generating high-quality synthetic speech from text input. é)Ú dataclassÚfield)ÚAsyncGeneratorÚDictÚLiteralÚOptional)Úlogger)ÚAsyncOpenAIÚBadRequestError)Ú BaseModel)Ú ErrorFrameÚFrameÚ StartFrameÚTTSAudioRawFrame)Ú NOT_GIVENÚTTSSettingsÚ _NotGiven)Ú TTSService)Ú traced_tts) ÚalloyÚashÚballadÚcedarÚcoralÚechoÚfableÚmarinÚnovaÚonyxÚsageÚshimmerÚverserrrrrrrrrrrr r!ÚVALID_VOICESc@sFeZdZUdZedd„dZeeBed<edd„dZ e eBed<dS) ÚOpenAITTSSettingsz¹Settings for OpenAITTSService. Parameters: instructions: Instructions to guide voice synthesis behavior. speed: Voice speed control (0.25 to 4.0, default 1.0). cCótS©N©r©r'r'úO/home/ubuntu/.local/lib/python3.10/site-packages/pipecat/services/openai/tts.pyÚHózOpenAITTSSettings.)Údefault_factoryÚinstructionscCr$r%r&r'r'r'r(r)Ir*ÚspeedN)Ú__name__Ú __module__Ú__qualname__Ú__doc__rr,ÚstrrÚ__annotations__r-Úfloatr'r'r'r(r#?s r#csäeZdZUdZeZeed<dZGdd„deƒZ ddddddddddœ de ed e ed e ede ede ed e ede e de e de ef‡fdd„Zdefdd„Zdef‡fdd„Zedededeedffdd„ƒZ‡ZS)ÚOpenAITTSServiceaOpenAI Text-to-Speech service that generates audio from text. This service uses the OpenAI TTS API to generate PCM-encoded audio at 24kHz. Supports multiple voice models and configurable parameters for high-quality speech synthesis with streaming audio output. Ú _settingsiÀ]c@s2eZdZUdZdZeeed<dZee ed<dS)zOpenAITTSService.InputParamsa?Input parameters for OpenAI TTS configuration. .. deprecated:: 0.0.105 Use ``settings=OpenAITTSService.Settings(...)`` instead. Parameters: instructions: Instructions to guide voice synthesis behavior. speed: Voice speed control (0.25 to 4.0, default 1.0). Nr,r-) r.r/r0r1r,rr2r3r-r4r'r'r'r(ÚInputParamsYs r7N) Úapi_keyÚbase_urlÚvoiceÚmodelÚsample_rater,r-ÚparamsÚsettingsr8r9r:r;r<r,r-r=r>c s|r||jkrt d|j›d|›d¡|jdddddd}|dur+| dd¡||_|dur8| d d ¡||_|durE| d d ¡||_|durR| dd¡||_|duro| d¡| so|jdurf|j|_|jduro|j|_| durx| | ¡t ƒjd|d d |dœ| ¤Žt||d|_ dS)aInitialize OpenAI TTS service. Args: api_key: OpenAI API key for authentication. If None, uses environment variable. base_url: Custom base URL for OpenAI API. If None, uses default. voice: Voice ID to use for synthesis. Defaults to "alloy". .. deprecated:: 0.0.105 Use ``settings=OpenAITTSService.Settings(voice=...)`` instead. model: TTS model to use. Defaults to "gpt-4o-mini-tts". .. deprecated:: 0.0.105 Use ``settings=OpenAITTSService.Settings(model=...)`` instead. sample_rate: Output audio sample rate in Hz. If None, uses OpenAI's default 24kHz. instructions: Optional instructions to guide voice synthesis behavior. .. deprecated:: 0.0.105 Use ``settings=OpenAITTSService.Settings(instructions=...)`` instead. speed: Voice speed control (0.25 to 4.0, default 1.0). .. deprecated:: 0.0.105 Use ``settings=OpenAITTSService.Settings(speed=...)`` instead. params: Optional synthesis controls (acting instructions, speed, ...). .. deprecated:: 0.0.105 Use ``settings=OpenAITTSService.Settings(...)`` instead. settings: Runtime-updatable settings. When provided alongside deprecated parameters, ``settings`` values take precedence. **kwargs: Additional keyword arguments passed to TTSService. zOpenAI TTS only supports ú Hz sample rate. Current rate of úHz may cause issues.zgpt-4o-mini-ttsrN)r;r:Úlanguager,r-r:r;r,r-r=T)r<Úpush_start_frameÚpush_stop_framesr>)r8r9r')ÚOPENAI_SAMPLE_RATErÚwarningÚSettingsÚ"_warn_init_param_moved_to_settingsr:r;r,r-Úapply_updateÚsuperÚ__init__r Ú_client)Úselfr8r9r:r;r<r,r-r=r>ÚkwargsÚdefault_settings©Ú __class__r'r(rJgsV1 ÿÿû üûzOpenAITTSService.__init__ÚreturncCsdS)z–Check if this service can generate processing metrics. Returns: True, as OpenAI TTS service supports metrics generation. Tr')rLr'r'r(Úcan_generate_metricsÌsz%OpenAITTSService.can_generate_metricsÚframecƒsDtƒ |¡IdH|j|jkr t d|j›d|j›d¡dSdS)z~Start the OpenAI TTS service. Args: frame: The start frame containing initialization parameters. NzOpenAI TTS requires r?r@)rIÚstartr<rDrrE)rLrSrOr'r(rTÔs€ ÿÿÿzOpenAITTSService.startÚtextÚ context_idc Cs¸t |›d|›d¡z³||jjt|jjddœ}|jjr$|jj|d<|jjr.|jj|d<|jj j jjdi|¤Ž4IdHšt}|j dkru| ¡IdH}t |›d |j ›d |›d¡td|j ›d |›dd V WdƒIdHWdS| |¡IdH|j}| |¡2z3dHW}t|ƒdkr¤| ¡IdHt||jd|d}|Vq…6WdƒIdHWdS1IdHs¸wYWdStyÛ} ztd| ›d VWYd} ~ dSd} ~ ww)aGenerate speech from text using OpenAI's TTS API. Args: text: The text to synthesize into speech. context_id: The context ID for tracking audio frames. Yields: Frame: Audio frames containing the synthesized speech data. z: Generating TTS [ú]Úpcm)Úinputr;r:Úresponse_formatr,r-NéÈz error getting audio (status: z , error: ú)zError getting audio (status: )Úerrorré)rVzUnknown error occurred: r')rÚdebugr6r;r"r:r,r-rKÚaudioÚspeechÚwith_streaming_responseÚcreateÚstatus_coderUr]rÚstart_tts_usage_metricsÚ chunk_sizeÚ iter_bytesÚlenÚstop_ttfb_metricsrr<r ) rLrUrVÚ create_paramsÚrr]Ú CHUNK_SIZEÚchunkrSÚer'r'r(Úrun_ttsásP€ üÿ ÿÿõ €ü2ï €ÿzOpenAITTSService.run_tts)r.r/r0r1r#rFr3rDrr7rr2Úintr4rJÚboolrRrrTrrr roÚ __classcell__r'r'rOr(r5LsL õýüûúùø ÷ öõe (r5N)#r1ÚdataclassesrrÚtypingrrrrÚlogururÚopenair r ÚpydanticrÚpipecat.frames.framesrr rrÚpipecat.services.settingsrrrÚpipecat.services.tts_servicerÚ(pipecat.utils.tracing.service_decoratorsrÚ ValidVoicer"r2r3r#r5r'r'r'r(Ús<ÿó