o لظ·i–م@sہUdZddlmZddlmZddlmZddlmZddl m Z er)ddlmZee ƒZee d œZeeeefed <ee ،ƒZdedBd edBfdd„ZdedBd dfdd„Zgd¢ZdS)aفQuantization support for diffusion models. This module provides a unified interface for quantizing diffusion transformers using various methods (FP8, etc.). It wraps vLLM's quantization infrastructure while allowing diffusion-model-specific defaults and optimizations. Example usage: from vllm_omni.diffusion.quantization import ( get_diffusion_quant_config, get_vllm_quant_config_for_layers, ) # Create FP8 config for diffusion model diff_config = get_diffusion_quant_config("fp8") # Get vLLM config to pass to linear layers vllm_config = get_vllm_quant_config_for_layers(diff_config) # Use in model initialization linear_layer = QKVParallelLinear(..., quant_config=vllm_config) é)ع TYPE_CHECKING)عinit_loggeré)عDiffusionQuantizationConfig)عDiffusionFp8Config)عDiffusionGgufConfig)عQuantizationConfig)عfp8عggufع_QUANT_CONFIG_REGISTRYعquantizationNعreturncKs^|dus | ،dkrdS| ،}|tvrtd|›dt›‌ƒ‚t|}t d|،|di|¤ژS)aضFactory function to create quantization config for diffusion models. Args: quantization: Quantization method name ("fp8", etc.) or None to disable **kwargs: Method-specific parameters passed to the config constructor Returns: DiffusionQuantizationConfig instance or None if quantization is disabled Raises: ValueError: If the quantization method is not supported Example: # Default FP8 with dynamic activation scaling config = get_diffusion_quant_config("fp8") # FP8 with custom parameters config = get_diffusion_quant_config( "fp8", activation_scheme="static", ignored_layers=["proj_out"], ) NعnonezUnknown quantization method: z. Supported methods: z*Creating diffusion quantization config: %s©)عlowerrع ValueErrorعSUPPORTED_QUANTIZATION_METHODSعloggerعinfo)rعkwargsع config_clsrrْ]/home/ubuntu/.local/lib/python3.10/site-packages/vllm_omni/diffusion/quantization/__init__.pyعget_diffusion_quant_config2sےrعdiffusion_quant_configzQuantizationConfig | NonecCs|durdS| ،S)a…Get the vLLM QuantizationConfig to pass to linear layers. This extracts the underlying vLLM config from a DiffusionQuantizationConfig, which can then be passed to vLLM linear layers (QKVParallelLinear, etc.). Args: diffusion_quant_config: The diffusion quantization config, or None Returns: vLLM QuantizationConfig instance, or None if input is None N)عget_vllm_quant_config)rrrrع get_vllm_quant_config_for_layers[sr)rrrrrr)ع__doc__عtypingrعvllm.loggerrعbaserr rr rع3vllm.model_executor.layers.quantization.base_configrع__name__rrعdictعstrعtypeع__annotations__عlistعkeysrrrع__all__rrrrعs0‏ے ‎)ے ‏