o TÃi„cã@s<ddlmZddlZddlZddlmZmZddlmZ ddl mZddlm Z ddlmZddlmZddlmZmZmZmZmZmZmZmZmZdd lmZmZmZm Z dd l!m"Z"m#Z#ddl$m%Z%ddl&m'Z'dd l(m)Z)ddl*m+Z+m,Z,m-Z-m.Z.m/Z/m0Z0m1Z1e2ej3e4deƒddd„Z5Gdd„de ƒZ6dd„Z7dS)é)ÚOrderedDictN)Ú_flatten_dense_tensorsÚ_unflatten_dense_tensors)Úcomm)ÚPIPE_REPLICATED)Ú ZeROOptimizer)Úversion) Úget_global_norm_of_tensorsÚclip_tensors_by_global_normÚ DummyOptimÚalign_dense_tensorsÚall_gather_dp_groupsÚis_model_parallel_parameterÚsee_memory_usageÚ graph_processÚget_norm_with_moe_layers)Úlink_hp_paramsÚ#lazy_init_hp_params_optimizer_stateÚfragment_addressÚgroups)Úis_moe_paramÚis_moe_param_group)Úbwc_tensor_model_parallel_rank)Úregister_grad_hook)Úenable_universal_checkpoint)Ú DS_VERSIONÚPARTITION_COUNTÚBASE_OPTIMIZER_STATEÚSINGLE_PARTITION_OF_FP32_GROUPSÚ CLIP_GRADÚGROUP_PADDINGSÚPARAM_SLICE_MAPPINGSrFcCs(t ¡dkr|s |rt|ƒdSdSdS©Nr)ÚdistÚget_rankÚprint)ÚmessageÚdebugÚforce©r)úT/home/ubuntu/.local/lib/python3.10/site-packages/deepspeed/runtime/bf16_optimizer.pyÚprint_rank_0sÿr+csŽeZdZ dI‡fdd„ Zd d „Zdd„Zd d„Zdd„Zdd„Zdd„Z dd„Z dd„Zdd„Zdd„Z e ¡dJdd„ƒZdKdd „Ze ¡d!d"„ƒZe ¡dLd#d$„ƒZe ¡dLd%d&„ƒZe ¡d'd(„ƒZe ¡dLd)d*„ƒZe ¡d+d,„ƒZd-d.„ZdLd/d0„ZdMd1d2„Zd3d4„Zd5d6„Zd7d8„Z dNd9d:„ZdOd;d<„Zd=d>„Z d?d@„Z!e"dAdB„ƒZ#e"dCdD„ƒZ$dEdF„Z%dGdH„Z&‡Z'S)PÚBF16_OptimizerNçéìrTFTc sFtƒ ¡tddd||_||_||_t|jtƒ|_| t j t jfvs+Jd| ›ƒ‚| |_||_ ||_||_||_t|ƒ|_ˆ|_tj|jd|_||_g|_‡fdd„tt|jjƒƒDƒ|_|jrg| ¡t|_t |_!d|_"g|_#g|_$g|_%g|_&g|_'i|_(g|_)g|_*g|_+g|_,g|_-| |_.|jr›| /¡td dddS) Nzbegin bf16_optimizerT©r(zFsz+BF16_Optimizer.__init__..r.zend bf16_ optimizer)0ÚsuperÚ__init__rÚtimersÚ optimizerÚparam_namesÚ isinstancerÚusing_real_optimizerÚtorchÚfloat32Úbfloat16Úgrad_acc_dtypeÚimmediate_grad_updateÚ clip_gradÚ norm_typeÚmpuÚintÚallgather_bucket_sizer6r#r$Údp_rankÚhas_moe_layersÚnon_expert_gradientsÚrangeÚlenÚparam_groupsÚreal_dp_process_groupÚ_configure_moe_settingsrÚflattenrÚ unflattenÚnccl_start_alignment_factorÚbf16_groupsÚbf16_groups_flatÚbf16_partitioned_groupsÚfp32_groups_flat_partitionÚfp32_groups_gradientsÚfp32_groups_gradient_dictÚfp32_groups_gradients_flatÚ!fp32_groups_actual_gradients_flatÚ#fp32_groups_gradient_flat_partitionÚfp32_groups_has_gradientsÚgroup_paddingsÚgraph_harvestingÚ_setup_for_real_optimizer) ÚselfÚinit_optimizerr<rFrDrErHr6r:rBr_rCrJ©Ú __class__r5r*r9%sP ÿ zBF16_Optimizer.__init__cCsXt|jjƒD]\}}|j|D]}t|ddƒrd|_qq|jD]}| ¡qtdƒdS)NÚ_hp_mappingzRemoved grad acc hooks) Ú enumerater;rNrTÚgetattrreÚ_grad_acc_hooksÚremover+)rar4Ú_ÚpÚhookr)r)r*Údestroygs€þ zBF16_Optimizer.destroycCsžtdd„|jjDƒƒsJdƒ‚t|jjƒD]!\}}t|ƒr6tdd„|dDƒƒs,Jdƒ‚t |d¡|j|<qi|_ |j rKt ¡ ¡D] }g|j |<qCdSdS)NcSóg|]}t|ƒ‘qSr))r)r3r2r)r)r*r7róz:BF16_Optimizer._configure_moe_settings..z“The model has moe layers, but None of the param groups are marked as MoE. Create a param group with 'moe' key set to True before creating optimizercSrnr))r©r3Úparamr)r)r*r7wsÿÚparamsz*All params in MoE group must be MoE paramsÚname) Úanyr;rNrfrÚallrÚ_get_expert_data_parallel_grouprOÚexpert_gradientsrJÚ$_get_expert_data_parallel_group_dictÚkeys)rar4r2Úkeyr)r)r*rPps(ÿþ ÿÿ€þz&BF16_Optimizer._configure_moe_settingsc s¨dd„ˆjDƒˆ_tˆjjƒD]&\‰}tjˆjˆd}tdˆ›ddtjˆjˆd}dd„|dDƒ}ˆj |¡ˆj ˆ ˆj ˆˆj |¡¡ˆjˆj ˆˆjˆd ˆjˆ ¡|‰‡‡‡fd d„t|ƒDƒ}ˆj |¡ˆj || ¡ ¡ ¡¡dˆjˆ_dd„ˆj ˆDƒ}tjˆjˆˆjd}ˆj |¡ˆjr¸t|ƒr¸ˆj|d |¡nˆj |¡ˆjˆjˆ|d}ˆj |¡|ˆj!ˆ<t"|ƒ} ˆj# t $ˆjˆdd| ¡¡ˆj% t $ˆjˆd|ˆˆ¡¡ˆj& dgt'ˆj ˆƒ¡|tjˆjˆddkrˆjˆ ¡| } nd} ˆj( | ¡ˆjˆg|d<tdˆ›ddqgˆ_)ˆj*rBˆ +¡ˆ ,¡dˆ_-ˆ .¡ˆ /¡ˆ_0dS)NcSsg|]}tj|d‘qS)r1)r#Úget_world_size)r3Úpgr)r)r*r7€sz.r1zbefore initializing group Tr0cSsg|]}|jr|‘qSr))Ú requires_gradrpr)r)r*r7‰srr)Útensor_listÚflat_tensorcs$g|]}ˆjˆ d|ˆˆ¡‘qS)r)rUÚnarrow)r3Údp_index©r4Úpartition_sizerar)r*r7–sÿÿcSsg|]}| ¡‘qSr))Únumel)r3Útr)r)r*r7 ro)Údtypers)rÚ num_elem_listrFézafter initializing group )1rOÚpartition_countrfr;rNr#r{rr$rTÚappendrUÚ_flatten_dense_tensors_alignedrSÚ#_update_storage_to_flattened_tensorr„rLrVrWÚcloneÚfloatÚdetachr}r?Ú zeros_likerBrZrJrrwrKÚ_split_flat_tensorrXrYÚsumr[r€r\r]rMr^rhrCÚcreate_grad_acc_hooksÚ_link_all_hp_paramsÚ_hp_optimizer_states_linkedÚ_enable_universal_checkpointÚ_create_param_mappingÚ_param_slice_mappings)raÚparam_groupÚreal_dp_world_sizeÚpartition_idÚtrainable_parametersÚbf16_dp_partitionsr‡Úfp32_flat_bufferÚfp32_gradientsÚlength_without_paddingÚpaddingr)r‚r*r`slÿÿÿþÿ ÿÿz(BF16_Optimizer._setup_for_real_optimizercCs|jD]}t|dqdS)N)Ú param_list)rTr)raÚlp_param_groupr)r)r*r–Ós ÿz+BF16_Optimizer._enable_universal_checkpointcCs`g}t|jjƒD]%\}}tƒ}|j|D]}|jdur'|j|}|j ¡||<q| |¡q|S©N) rfr;rNrrTrer<Úget_hp_fragment_addressrŠ)raÚ param_mappingr4rjÚparam_mapping_per_groupÚlpÚlp_namer)r)r*r—×s €z$BF16_Optimizer._create_param_mappingcCs†t|jjƒD]:\}}tj|j|d}tj|j|d}|j| ¡|}|j |}t |j|||jdd|||||j|d qdS)Nr1F) Ú lp_param_listÚflat_hp_partitionÚ gradient_dictÚoffload_gradient_dictÚuse_offloadÚparam_group_indexÚpartition_startrƒÚdp_group) rfr;rNr#r{rOr$rUr„rWrrTrY)rar4rjršr›rƒr«r)r)r*r”ãs øùz"BF16_Optimizer._link_all_hp_paramscCsF|js!t|jjƒD]\}}t|j||j||jjƒq d|_dSdS)NT)r•rfr;rNrrTrWÚstate)rar4rjr)r)r*Ú$_lazy_init_hp_params_optimizer_stateõsÿ üz3BF16_Optimizer._lazy_init_hp_params_optimizer_statecCsLt|ƒ| ¡ks J‚g}d}|D]}t |d||¡}| |¡||7}q|Sr")r’r„r?r€rŠ)rarr‡r~ÚoffsetÚnum_elemÚdense_tensorr)r)r*r‘üs z!BF16_Optimizer._split_flat_tensorcCs,| ||¡}t||ƒD]\}}|j|_qdSr¤)rRÚzipÚdata)rar~rÚupdated_paramsrkÚqr)r)r*rŒs ÿz2BF16_Optimizer._update_storage_to_flattened_tensorcCs| t||ƒ¡Sr¤)rQr)rar~Ú alignmentr)r)r*r‹óz-BF16_Optimizer._flatten_dense_tensors_alignedcCs|durt|j›dƒ‚| ¡\}}t||j|j|jd}|}|jr,t||j||jd}||_ |dks5J‚|j dkrJt|jdd|j ||j|jdt|j |jƒD]\}}|j|jkra| |j¡n||_qQ|j ¡|jtjury|j D]}d|_qs| ¡| ¡| ¡dS)Nz does not support closure.)Ú input_tensorsrFrEÚ use_graph)rFÚexpert_tensorsrEr-T)Úfor_clipping)r½Úmax_normÚglobal_normrFr¾)ÚNotImplementedErrorrdÚget_grads_for_normr rFrEr_rJrÚ_global_grad_normrDr r·rWr\r†ÚtoÚgradr;ÚsteprBr?r@r³Úupdate_lp_paramsÚclear_hp_grads)raÚclosureÚnon_expert_grads_for_normÚexpert_grads_for_normÚnon_expert_groups_normÚall_groups_normÚparam_partitionÚgrad_partitionr)r)r*rÈsPýý üÿÿÿÿ zBF16_Optimizer.stepcKs4| ¡|jdd|i|¤Ž|r|j|ddSdS)aePerform a backward pass and copy the low-precision gradients to the high-precision copy. We copy/accumulate to the high-precision grads now to prevent accumulating in the bf16 grads after successive backward() calls (i.e., grad accumulation steps > 1) The low-precision grads are deallocated during this procedure. Úretain_graph©Úclear_lp_gradsNr))rÔÚbackwardÚupdate_hp_grads)raÚlossrÒrÖrÔÚ bwd_kwargsr)r)r*rÕ=s ÿzBF16_Optimizer.backwardcCsŽ|jdurdS|j||}|dus"Jdt|ƒ›d|›d|›dƒ‚|j |jj |j¡ |j¡¡||_ d|j ||<|rE|j ¡dSdS)Nz4high precision param has no gradient, lp param_id = z group_info = [z][ú]T)rÇrXÚidr¸Úadd_rÆr†ÚviewÚshapeÚ_hp_gradr]Úzero_)rar¨Ú group_idxÚ param_idxrÔÚhp_gradr)r)r*Ú_update_hp_gradLs ÿ ÿzBF16_Optimizer._update_hp_gradcCs:t|jƒD]\}}t|ƒD]\}}| ||||¡q qdSr¤)rfrTrã©rarÔr4r2Újr¨r)r)r*Ú_update_hp_grads_func]s ÿÿz$BF16_Optimizer._update_hp_grads_funccCsn|jrdS|jrtd|j|ƒn| |¡t|jƒD]\}}t|ƒD]\}}|jdur,q"d|j||<q"qdS)NFT)rCr_rrærfrTrÇr]rär)r)r*rÖcs ýÿzBF16_Optimizer.update_hp_gradscCs|jr |j|jfS|jifSr¤)rJrKrw©rar)r)r*Úget_grads_for_reductionss z&BF16_Optimizer.get_grads_for_reductioncCs&i}g}g}t|jd}t|jƒt|jjƒksJ‚t|jƒD]l\}}t|ƒD]c\}} |sBt| tƒr5| j r5q&|dksBt | ƒsBt| ƒsBq&|j||sJq&|s|jj|} |j rtt| ƒrt| d|vreg|| d<|| d |j||¡q&| |j||¡q&| |j||¡q&q|s‘||fS|S)zì Returns: tuple[list[Tensor], dict[ep_name, List[Tensor]] | list: If for_clipping, return all gradients. Otherwise, separate and return dict of expert_grad and list of non_expert_grad )rFrrs)rrFrMrTr;rNrfÚhasattrrÚds_pipe_replicatedrrr]rJrrŠrX)rarÀrÍrÌÚall_grads_for_clipÚtensor_mp_rankr4r2rår¨r™r)r)r*rÄys4 éz!BF16_Optimizer.get_grads_for_normcCsdtt|j|jƒƒD]\}\}}tj|j|d}||j |j¡q t |j |j|j|j|jddS)Nr1)Úgroups_flatÚpartitioned_param_groupsr6Ústart_alignment_factorrH) rfr·rVrWr#r$rOr¸Úcopy_r rUrSrH©rar4Úbf16_partitionsÚfp32_partitionr›r)r)r*rÉ§sÿ üzBF16_Optimizer.update_lp_paramscCs@|jD]}| ¡qt|jƒD]\}}dgt|ƒ|j|<qdS)NF)rZrßrfrXrMr])raÚflat_gradientsr4r2r)r)r*rÊ´s ÿzBF16_Optimizer.clear_hp_gradscCsŠ|jr |r Jdƒ‚g}|jD]#}|D]}|rd|_q|jdur0|jjdur*|j ¡| |j¡qq|sAt|ƒdkrCt |¡dSdSdS)Nz>graph harvesting is incompatible with setting lp grads to Noner) r_rTrÇÚgrad_fnÚdetach_rŠrMr?Ú_foreach_zero_)raÚset_to_noneÚzero_grads_listr2rqr)r)r*rÔ»s €úÿzBF16_Optimizer.clear_lp_gradscCs| |¡| ¡dSr¤)rÔrÊ)rarør)r)r*Ú zero_gradÍs zBF16_Optimizer.zero_gradcCsPi}|j|t<|j ¡|t<|j|t<|j|t<|j |t <t|t<|j |t<|Sr¤)rDrr;Ú state_dictrrWrr^r r‰rrrr˜r!)rarûr)r)r*rûÑs zBF16_Optimizer.state_dictcCsHtt|j|jƒƒD]\}\}}tj|j|d}|j ||j¡q dS)Nr1) rfr·rVrWr#r$rOr¸rðrñr)r)r*Ú_restore_from_bit16_weightsÞsÿýz*BF16_Optimizer._restore_from_bit16_weightscCs| ¡dSr¤)rürçr)r)r*Úrefresh_fp32_paramsäsz"BF16_Optimizer.refresh_fp32_paramscCs(|r| |||¡dS| |||¡dSr¤)Ú_load_universal_checkpointÚ_load_legacy_checkpoint)raÚstate_dict_listÚcheckpoint_folderÚload_optimizer_statesÚload_from_fp32_weightsÚload_serialÚparam_shapesr)r)r*Úload_state_dictçszBF16_Optimizer.load_state_dictc Cs²tj|jd}||}| td¡}|sJdƒ‚t |¡}| t|j¡|_|r2t dƒ|j |t¡|rOt |j|tƒD]\}}t|| ¡ƒ} |j | j¡q<|rW| ¡dSdS)Nr1Fz8Empty ds_version in checkpoint, not clear how to proceedz=_load_legacy_checkpoint current_rank_sd[BASE_OPTIMIZER_STATE])r#r$r6ÚgetrÚpkg_versionÚparserrDr%r;rrr·rWrÚ_get_padded_tensorr„r¸rðr”) rarrrrIÚcurrent_rank_sdÚckpt_versionÚcurrentÚsavedÚ src_tensorr)r)r*rÿós$ ÿÿz&BF16_Optimizer._load_legacy_checkpointcCs| d|¡dS)NrT)Ú,load_hp_checkpoint_state_from_checkpoint_dir)rarrrr)r)r*rþr¼z)BF16_Optimizer._load_universal_checkpointcCsdSr¤r))raÚsdr)r)r*Ú_load_global_statesz!BF16_Optimizer._load_global_statecCó|jjS)z+Forward the wrapped optimizer's parameters.)r;rNrçr)r)r*rNózBF16_Optimizer.param_groupscCr)z'Forward the wrapped optimizer's states.)r;r²rçr)r)r*r²rzBF16_Optimizer.statecCs |jsJ‚|j|||dddS)NFrÓ)rCrã)raÚlp_paramràrár)r)r*Ú!accumulate_hp_grads_and_remove_lps z0BF16_Optimizer.accumulate_hp_grads_and_remove_lpcsHtˆjƒD]\}}t|ƒD]\}}|jr ‡fdd„}||||ƒq qdS)Ncs(‡‡‡‡fdd„}ˆj tˆ|ƒ¡dS)Ncsˆ ˆˆˆ¡dSr¤)r)Ú notneeded)r4rårqrar)r*r&sz`BF16_Optimizer.create_grad_acc_hooks..wrapper..accumulate_hp_grads_and_remove_lp)rhrŠr)rqr4rårrç)r4rårqr*Úwrapper$sz5BF16_Optimizer.create_grad_acc_hooks..wrapper)rfrTr})rar4r™rårqrr)rçr*r“s€öÿz$BF16_Optimizer.create_grad_acc_hooks) Nr-r.r/NNNFTFr¤)FTF)F)T)NTFNN)TF)(Ú__name__Ú __module__Ú__qualname__r9rmrPr`r–r—r”r³r‘rŒr‹r?Úno_gradrÈrÕrãrærÖrèrÄrÉrÊrÔrúrûrürýrrÿrþrÚpropertyrNr²rr“Ú __classcell__r)r)rcr*r,#stôB T - - ú r,cCsJ| ¡|kr|Stj||j|jd}t |dd| ¡¡}|j |j¡|S)N)r†Údevicer)r„r?Úzerosr†rr€r¸rð)rÚsizeÚ padded_tensorÚslice_tensorr)r)r*r .sr )FF)8Úcollectionsrr?ÚsysÚtorch._utilsrrÚ deepspeedrr#Údeepspeed.runtime.constantsrÚ deepspeed.runtime.base_optimizerrÚ packagingrrÚdeepspeed.git_version_infoÚdeepspeed.runtime.utilsr r rrr rrrrÚdeepspeed.utilsrrrrÚdeepspeed.moe.utilsrrÚdeepspeed.utils.bwcrÚdeepspeed.utils.torchrÚdeepspeed.checkpointrÚdeepspeed.checkpoint.constantsrrrrrr r!ÚsetattrÚmodulesrr+r,r r)r)r)r*Ús0,$