o
    [Û·if ã                   @  sL   d dl mZ d dlmZ ddlmZmZmZmZ G dd„ dƒZ	ddd„Z
dS )é    )Úannotations)ÚSequenceé   )Ú
MODEL_ARCHÚMODEL_TENSORÚMODEL_TENSORSÚTENSOR_NAMESc                   @  s  e Zd ZU i ejd“ejd“ejd“ejd“ejd“ej	d“ej
d“ejd“ejd	“ejd
“ejd
“ejd“ejd“ejd“ejd“ejd“ejd“ejdejdejdejdejdejdi¥Zded< i ejd“ejd“ejd“ej d“ej!d“ej"d“ej#d“ej$d “ej%d!“ej&d"“ej'd#“ej(d$“ej)d%“ej*d&“ej+d'“ej,d(“ej-d)“i ej.d*“ej/d+“ej0d,“ej1d-“ej2d.“ej3d/“ej4d0“ej5d1“ej6d2“ej7d3“ej8d4“ej9d5“ej:d6“ej;d7“ej<d8“ej=d9“ej>d:“¥i ejd;“ej?d<“ej@d=“ejAd>“ejBd?“ejCd@“ejDdA“ejEdB“ejFdC“ejGdD“ejHdE“ejIdF“ejJdG“ejKdH“ejLdI“ejMdJ“ejNdK“¥i ejOdL“ejPdM“ejQdN“ejRdO“ejSdP“ejTdQ“ejUdR“ejVdS“ejWdT“ejXdU“ejYdV“ejZdW“ej[dX“ej\dY“ej]dZ“ej^d[“ej_d\“¥i ej`d]“ejad^“ejbd_“ejcd`“ejdda“ejedb“ejfdc“ejgdd“ejhde“ejidf“ejjdg“ejkdh“ejldi“ejmdj“ejndk“ejodl“ejpdm“¥i ejqdn“ejrdo“ejsdp“ejtdq“ejudr“ejvds“ejwdt“ejxdu“ejydv“ejzdw“ej{dx“ej|dy“ej}dz“ej~d{“ejd|“ej€d}“ejd~“¥i ej‚d“ejƒd€“ej„d“ej…d‚“ej†dƒ“ej‡d„“ejˆd…“ej‰d†“ejŠd‡“ej‹dˆ“ejŒd‰“ejdŠ“ejŽd‹“ejdŒ“ejd“ej‘dŽ“ej’d“¥i ej“d“ej”d‘“ej•d’“ej–d““ej—d”“ej˜d•“ej™d–“ejšd—“ej›d˜“ejœd™“ejdš“ejžd›“ejŸdœ“ej d“ej¡dž“ej¢dŸ“ej£d “¥i ej¤d¡“ej¥d¢“ej¦d£“ej§d¤“ej¨d¥“ej©d¦“ejªd§“ej«d¨“ej¬d©“ej­dª“ej®d«“ej¯d¬“ej°d­“ej±d®“ej²d¯“ej³d°“ej´d±“¥i ejµd²“ej¶d³“ej·d´“ej¸dµ“ej¹d¶“ejºd·“ej»d¸“ej¼d¹“ej½dº“ej¾d»“ej¿d¼“ejÀd½“ejÁd¾“ejÂd¿“ejÃdÀ“ejÄd¾“ejÅdÁ“¥i ejÆdÂ“ejÇdÃ“ejÈdÄ“ejÉdÅ“ejÊdÆ“ejËdÇ“ejÌdÈ“ejÍdÉ“ejÎdÊ“ejÏdË“ejÐdÌ“ejÑdÍ“ejÒdÎ“ejÓdÏ“ejÔdÐ“ejÕdÑ“ejÖdÒ“¥i ej×dÓ“ejØdÔ“ejÙdÕ“ejÚdÖ“ejÛd×“ejÜdØ“ejÝdÙ“ejÞdÚ“ejßdÛ“ejàdÜ“ejádÝ“ejâdÞ“ejãdß“ejädà“ejdá“ejådâ“ejdã“¥i ejædä“ejçdå“ejèdæ“ejédç“ejêdè“ejëdé“ejìdê“ejídë“ejîdì“ejïdí“ejðdî“ejñdï“ejòdð“ejódñ“ejôdò“ejõdó“ejödô“¥i ej÷dõ“ejødö“ejùd÷“ejúdø“ejûdù“ejüdú“ejýdû“ejþdü“ejÿdý“ej dþ“ejd
“ejdÿ“ejd “ejd“ejd“ejd“ejd“¥i ejd“ej	d“ej
d“ejd“ejd	“ejd
“ejd“ejd
“ejd“ejd“ejd“ejd“ejd“ejd“ejd“ejd“ejd“¥i ejd“ejd“ejd“ejd“ejd“ejd“ejd“ej d“ej!d“ej"d“ej#d“ej$d “ej%d!“ej&d"“ej'd#“ej(d$“ej)d%“¥ej*d&ej+d'ej,d(i¥Z-ded)< e.j/ej)d*ej0d+iiZ1d,ed-< d.ed/< dLd4d5„Z2dMdNd<d=„Z3dMdOd?d@„Z4dMdPdBdC„Z5dQdDdE„Z6dRdGdH„Z7dSdIdJ„Z8dKS (T  ÚTensorNameMap)zgpt_neox.embed_inztransformer.wteztransformer.word_embeddingsÚword_embeddingszmodel.embed_tokensÚembed_tokensÚtok_embeddingszembeddings.word_embeddingszembeddings.tok_embeddingsz(language_model.embedding.word_embeddingsÚwteztransformer.embd.wtezmodel.tok_embeddingszmodel.embeddingzbackbone.embeddingzbackbone.embeddingsztransformer.in_out_embedzembedding.word_embeddingsztransformer.token_embeddingsÚsharedzrwkv.embeddingszmodel.embeddingszmodel.word_embeddingsz!language_model.model.embed_tokensÚencoderzmodel.transformer.wter   )z embeddings.token_type_embeddings)Úword_embeddings_layernormzembeddings.LayerNormzembeddings.normÚemb_lnútransformer.normúrwkv.blocks.0.pre_lnr   zmodel.pre_lnzmodel.layers.0.pre_normzbackbone.normzmodel.embedding_norm)ztransformer.wpezembeddings.position_embeddingsÚwpe)Ú	embed_outÚlm_headÚoutputÚword_embeddings_for_headzlm_head.linearÚoutput_layerÚheadzhead.outr   zmodel.transformer.ff_outzhead.decoder)Údense_2_out)Údense_3_out)zgpt_neox.final_layer_normztransformer.ln_fú
model.normÚnormztransformer.norm_fÚln_fz&language_model.encoder.final_layernormzmodel.final_layernormz
lm_head.lnzmodel.norm_fzbackbone.norm_fztransformer.rms_normzencoder.final_layernormr   r   zrwkv.ln_outzmodel.ln_outzbackbone.final_layer_normr   zmodel.transformer.ln_fÚ
final_normr   )z
rope.freqszrotary_pos_emb.inv_freq© )zbackbone.embed)zmodel.embed_vision.embedding)z&model.embed_vision.hard_embedding_norm)z'model.embed_vision.embedding_projection)z&model.embed_vision.soft_embedding_norm)z,model.vision_tower.timm_model.conv_stem.conv)z*model.vision_tower.timm_model.conv_stem.bn)z2model.vision_tower.timm_model.msfa.ffn.pw_exp.conv)z0model.vision_tower.timm_model.msfa.ffn.pw_exp.bn)z3model.vision_tower.timm_model.msfa.ffn.pw_proj.conv)z1model.vision_tower.timm_model.msfa.ffn.pw_proj.bn)z'model.vision_tower.timm_model.msfa.normz#dict[MODEL_TENSOR, tuple[str, ...]]Úmappings_cfg)!z%gpt_neox.layers.{bid}.input_layernormztransformer.h.{bid}.ln_1ztransformer.blocks.{bid}.norm_1z#transformer.h.{bid}.input_layernormzh.{bid}.input_layernormztransformer.h.{bid}.ln_mlpú"model.layers.{bid}.input_layernormzlayers.{bid}.attention_normz3language_model.encoder.layers.{bid}.input_layernormúmodel.layers.{bid}.ln1zh.{bid}.ln_1ztransformer.h.{bid}.lnzmodel.layers.layers.{bid}.normz(model.layers.layers.{bid}.pre_mixer_normz!model.layers.{bid}.attention_normzmodel.layers.{bid}.normzbackbone.layers.{bid}.normz(transformer.decoder_layer.{bid}.rms_normz model.layers.{bid}.pre_attn_normz.transformer.blocks.{bid}.norm_attn_norm.norm_1z$encoder.layers.{bid}.input_layernormz"transformer.layers.{bid}.attn_normzrwkv.blocks.{bid}.ln1r$   r#   úlayers.{bid}.input_layernormz(transformer_encoder.{bid}.attention_normzlayers.{bid}.attn_normz model.layers.{bid}.operator_normz(model.transformer.blocks.{bid}.attn_normr%   z&model.layers.{bid}.attention_layernormz*model.layers.{bid}.pre_attention_layernorm)ztransformer.h.{bid}.ln_attnz encoder.layer.{bid}.layer_norm_1zrwkv.blocks.{bid}.ln2úmodel.layers.{bid}.ln2ú+model.layers.{bid}.post_attention_layernorm)z/gpt_neox.layers.{bid}.attention.query_key_valueztransformer.h.{bid}.attn.c_attnz"transformer.blocks.{bid}.attn.Wqkvz1transformer.blocks.{bid}.norm_attn_norm.attn.Wqkvz2transformer.h.{bid}.self_attention.query_key_valuez&h.{bid}.self_attention.query_key_valuezBlanguage_model.encoder.layers.{bid}.self_attention.query_key_valuez,model.layers.{bid}.self_attn.query_key_valuez,model.layers.{bid}.attention.query_key_valuezh.{bid}.attn.c_attnztransformer.h.{bid}.mixer.Wqkvzencoder.layers.{bid}.attn.Wqkvzencoder.layers.{bid}.mixer.Wqkvz%model.layers.{bid}.self_attn.qkv_projz(model.layers.layers.{bid}.mixer.qkv_projz3encoder.layers.{bid}.self_attention.query_key_valuez&transformer.layers.{bid}.attn.qkv_projztransformer_encoder.{bid}.qkvzlayers.{bid}.attn.Wqkvz<model.layers.{bid}.self_attn.language_expert_query_key_valuez*model.layers.{bid}.linear_attn.in_proj_qkv)ú#model.layers.{bid}.self_attn.q_projúlayers.{bid}.self_attn.q_projz+model.layers.{bid}.self_attn.q_proj_no_permzlayers.{bid}.attention.wqz(encoder.layer.{bid}.attention.self.queryz'transformer.layer.{bid}.attention.q_linztransformer.h.{bid}.attn.q_projz*model.layers.layers.{bid}.self_attn.q_projzmodel.layers.{bid}.attention.wqz:transformer.decoder_layer.{bid}.multi_head_attention.queryz)transformer.h.{bid}.attn.attention.q_projr(   z%model.transformer.blocks.{bid}.q_projr)   z"backbone.layers.{bid}.mixer.q_proj)ú#model.layers.{bid}.self_attn.k_projúlayers.{bid}.self_attn.k_projz+model.layers.{bid}.self_attn.k_proj_no_permzlayers.{bid}.attention.wkz&encoder.layer.{bid}.attention.self.keyz'transformer.layer.{bid}.attention.k_linztransformer.h.{bid}.attn.k_projztransformer.h.{bid}.attn.kz*model.layers.layers.{bid}.self_attn.k_projzmodel.layers.{bid}.attention.wkz8transformer.decoder_layer.{bid}.multi_head_attention.keyz)transformer.h.{bid}.attn.attention.k_projr*   z%model.transformer.blocks.{bid}.k_projr+   z"backbone.layers.{bid}.mixer.k_proj)ú#model.layers.{bid}.self_attn.v_projúlayers.{bid}.self_attn.v_projzlayers.{bid}.attention.wvz(encoder.layer.{bid}.attention.self.valuez'transformer.layer.{bid}.attention.v_linztransformer.h.{bid}.attn.v_projztransformer.h.{bid}.attn.vz*model.layers.layers.{bid}.self_attn.v_projzmodel.layers.{bid}.attention.wvz:transformer.decoder_layer.{bid}.multi_head_attention.valuez)transformer.h.{bid}.attn.attention.v_projr,   z%model.transformer.blocks.{bid}.v_projr-   z"backbone.layers.{bid}.mixer.v_proj)#z%gpt_neox.layers.{bid}.attention.denseztransformer.h.{bid}.attn.c_projz&transformer.blocks.{bid}.attn.out_projz(transformer.h.{bid}.self_attention.densezh.{bid}.self_attention.denseú#model.layers.{bid}.self_attn.o_projúlayers.{bid}.self_attn.o_projz%model.layers.{bid}.self_attn.out_projz(model.layers.{bid}.self_attn.linear_attnzlayers.{bid}.attention.woz*encoder.layer.{bid}.attention.output.densezlayers.{bid}.attn.Woz)transformer.layer.{bid}.attention.out_linz!transformer.h.{bid}.attn.out_projz8language_model.encoder.layers.{bid}.self_attention.densez"model.layers.{bid}.self_attn.densez"model.layers.{bid}.attention.densezh.{bid}.attn.c_projz"transformer.h.{bid}.mixer.out_projz*model.layers.layers.{bid}.self_attn.o_projz&model.layers.layers.{bid}.mixer.o_projzmodel.layers.{bid}.attention.woz"encoder.layers.{bid}.attn.out_projz#encoder.layers.{bid}.mixer.out_projz;transformer.decoder_layer.{bid}.multi_head_attention.linearz5transformer.blocks.{bid}.norm_attn_norm.attn.out_projz)encoder.layers.{bid}.self_attention.densez&transformer.layers.{bid}.attn.out_projz+transformer.h.{bid}.attn.attention.out_projr.   ztransformer_encoder.{bid}.woz'model.transformer.blocks.{bid}.attn_outr/   z"backbone.layers.{bid}.mixer.o_projz2model.layers.{bid}.self_attn.language_expert_dense)z.encoder.layer.{bid}.attention.output.LayerNormz%transformer.layer.{bid}.sa_layer_normzencoder.layers.{bid}.norm1z*transformer.decoder_layer.{bid}.rms_norm_1z!model.layers.{bid}.post_attn_normz.transformer.blocks.{bid}.norm_attn_norm.norm_2)r'   ú%layers.{bid}.post_attention_layernormz+model.layers.{bid}.post_self_attn_layernormz0model.layers.layers.{bid}.post_mixer_norm.weight)z0model.layers.{bid}.self_attn.rotary_emb.inv_freqz1layers.{bid}.attention.inner_attention.rope.freqsz7model.layers.layers.{bid}.self_attn.rotary_emb.inv_freqz,transformer.h.{bid}.attn.rotary_emb.inv_freq)z"model.layers.{bid}.self_attn.sinksz0model.layers.{bid}.self_attn.attention_sink_bias)z&model.layers.{bid}.self_attn.gate_projz(model.layers.{bid}.linear_attn.in_proj_zz#model.layers.{bid}.self_attn.g_proj)z.gpt_neox.layers.{bid}.post_attention_layernormztransformer.h.{bid}.ln_2z h.{bid}.post_attention_layernormztransformer.blocks.{bid}.norm_2r'   zlayers.{bid}.ffn_normz<language_model.encoder.layers.{bid}.post_attention_layernormr&   zh.{bid}.ln_2zmodel.layers.{bid}.ffn_normz*transformer.decoder_layer.{bid}.rms_norm_2zmodel.layers.{bid}.pre_moe_normz-encoder.layers.{bid}.post_attention_layernormz!transformer.layers.{bid}.ffn_normz#model.layers.{bid}.pre_ff_layernormz$model.layers.{bid}.pre_moe_layernormr'   z"transformer_encoder.{bid}.ffn_normz&model.layers.layers.{bid}.pre_mlp_normz&model.transformer.blocks.{bid}.ff_normr0   z(model.layers.{bid}.feedforward_layernormú$model.layers.{bid}.pre_mlp_layernormzlayers.{bid}.mlp_norm)z,model.layers.{bid}.pre_feedforward_layernormz&layers.{bid}.pre_feedforward_layernormz*model.layers.{bid}.pre_ff_layernorm.weightr1   )z-model.layers.{bid}.post_feedforward_layernormz'layers.{bid}.post_feedforward_layernormz%model.layers.{bid}.post_mlp_layernormz.model.layers.layers.{bid}.post_mlp_norm.weightú'model.layers.{bid}.feed_forward.up_projz model.layers.{bid}.post_moe_norm)zlayers.{bid}.feed_forward.gatez(model.layers.{bid}.block_sparse_moe.gatezmodel.layers.{bid}.mlp.gatez&transformer.decoder_layer.{bid}.routerz)transformer.blocks.{bid}.ffn.router.layerz0model.layers.{bid}.block_sparse_moe.router.layerz&model.layers.{bid}.feed_forward.routerz%encoder.layers.{bid}.mlp.router.layerzmodel.layers.{bid}.mlp.routerzmodel.layers.{bid}.mlp.gate.wgz2model.layers.{bid}.block_sparse_moe.primary_routerz$model.layers.{bid}.feed_forward.gatez"model.layers.{bid}.mlp.router.gatezlayers.{bid}.gatez backbone.layers.{bid}.mixer.gatezmodel.layers.{bid}.moe.gate)z)model.layers.{bid}.mlp.shared_expert_gate)
z.model.layers.{bid}.mlp.gate.e_score_correctionz5model.layers.{bid}.mlp.moe_statics.e_score_correctionz'model.layers.{bid}.mlp.gate.expert_biasz"model.layers.{bid}.mlp.expert_biasz+model.layers.{bid}.feed_forward.expert_biasz6model.layers.{bid}.block_sparse_moe.e_score_correctionz3backbone.layers.{bid}.mixer.gate.e_score_correctionz)model.layers.{bid}.mlp.e_score_correctionz;model.layers.{bid}.block_sparse_moe.gate.e_score_correctionz"model.layers.{bid}.moe.router_bias)'z'gpt_neox.layers.{bid}.mlp.dense_h_to_4hztransformer.h.{bid}.mlp.c_fcz$transformer.blocks.{bid}.ffn.up_projz%transformer.h.{bid}.mlp.dense_h_to_4hzh.{bid}.mlp.dense_h_to_4hzmodel.layers.{bid}.mlp.up_projúlayers.{bid}.mlp.up_projzlayers.{bid}.feed_forward.w3z&encoder.layer.{bid}.intermediate.densezlayers.{bid}.mlp.Wiz transformer.layer.{bid}.ffn.lin1ztransformer.h.{bid}.mlp.fc_inz transformer.h.{bid}.mlp.linear_3z5language_model.encoder.layers.{bid}.mlp.dense_h_to_4hz$model.layers.{bid}.mlp.dense_h_to_4hztransformer.h.{bid}.mlp.w1zh.{bid}.mlp.c_fcztransformer.h.{bid}.mlp.fc1zmodel.layers.{bid}.mlp.fc1z#model.layers.{bid}.mlp.gate_up_projz%model.layers.layers.{bid}.mlp.up_projz*model.layers.layers.{bid}.mlp.gate_up_projz"model.layers.{bid}.feed_forward.w3zencoder.layers.{bid}.mlp.fc11zencoder.layers.{bid}.mlp.fc1zmodel.layers.{bid}.mlp.c_fcz&encoder.layer.{bid}.mlp.gated_layers_vz$encoder.layer.{bid}.mlp.gated_layersz&encoder.layer.{bid}.mlp.up_gated_layerz"model.layers.{bid}.residual_mlp.w3z&encoder.layers.{bid}.mlp.dense_h_to_4hztransformer.h.{bid}.mlp.c_fc_1r2   z!transformer_encoder.{bid}.ffn.w12z&model.layers.{bid}.block_sparse_moe.upz&model.transformer.blocks.{bid}.up_projr3   z#backbone.layers.{bid}.mixer.up_projz+model.layers.{bid}.mlp.language_mlp.up_proj)	z$layers.{bid}.feed_forward.experts.w3z,transformer.decoder_layer.{bid}.moe.linear_vz+transformer.blocks.{bid}.ffn.experts.mlp.v1z&model.layers.{bid}.mlp.experts.up_projz.model.layers.{bid}.block_sparse_moe.experts.w3z/model.layers.{bid}.feed_forward.experts.up_projz'encoder.layers.{bid}.mlp.experts.mlp.w1z.model.layers.{bid}.block_sparse_moe.experts.upzmodel.layers.{bid}.moe.up_proj)	z,model.layers.{bid}.mlp.shared_expert.up_projz-model.layers.{bid}.mlp.shared_experts.up_projz5model.layers.{bid}.feed_forward.shared_expert.up_projú)model.layers.{bid}.feed_forward.down_projz)model.layers.{bid}.mlp.shared_mlp.up_projzlayers.{bid}.shared_experts.w3z2backbone.layers.{bid}.mixer.shared_experts.up_projz:model.layers.{bid}.block_sparse_moe.shared_experts.up_projz'model.layers.{bid}.share_expert.up_proj)z,model.layers.{bid}.mlp.chunk_experts.up_proj)z transformer.blocks.{bid}.ffn.act)z model.layers.{bid}.mlp.gate_projúlayers.{bid}.mlp.gate_projzlayers.{bid}.feed_forward.w1ztransformer.h.{bid}.mlp.w2ztransformer.h.{bid}.mlp.c_fc2z'model.layers.layers.{bid}.mlp.gate_projz"model.layers.{bid}.feed_forward.w1zencoder.layers.{bid}.mlp.fc12z&encoder.layer.{bid}.mlp.gated_layers_wz transformer.h.{bid}.mlp.linear_1z"model.layers.{bid}.residual_mlp.w1ztransformer.h.{bid}.mlp.c_fc_0z)model.layers.{bid}.feed_forward.gate_projz&model.transformer.blocks.{bid}.ff_projr5   z-model.layers.{bid}.mlp.language_mlp.gate_proj)z$layers.{bid}.feed_forward.experts.w1z*transformer.decoder_layer.{bid}.moe.linearz+transformer.blocks.{bid}.ffn.experts.mlp.w1z(model.layers.{bid}.mlp.experts.gate_projz.model.layers.{bid}.block_sparse_moe.experts.w1z1model.layers.{bid}.feed_forward.experts.gate_projz0model.layers.{bid}.block_sparse_moe.experts.gatez model.layers.{bid}.moe.gate_proj)z.model.layers.{bid}.mlp.shared_expert.gate_projz/model.layers.{bid}.mlp.shared_experts.gate_projz7model.layers.{bid}.feed_forward.shared_expert.gate_projz+model.layers.{bid}.mlp.shared_mlp.gate_projzlayers.{bid}.shared_experts.w1z<model.layers.{bid}.block_sparse_moe.shared_experts.gate_projz)model.layers.{bid}.share_expert.gate_proj)z.model.layers.{bid}.mlp.chunk_experts.gate_proj)z+model.layers.{bid}.mlp.experts.gate_up_proj)"z'gpt_neox.layers.{bid}.mlp.dense_4h_to_hztransformer.h.{bid}.mlp.c_projz&transformer.blocks.{bid}.ffn.down_projz%transformer.h.{bid}.mlp.dense_4h_to_hzh.{bid}.mlp.dense_4h_to_hz model.layers.{bid}.mlp.down_projúlayers.{bid}.mlp.down_projzlayers.{bid}.feed_forward.w2z encoder.layer.{bid}.output.densezlayers.{bid}.mlp.Woz transformer.layer.{bid}.ffn.lin2ztransformer.h.{bid}.mlp.fc_outz5language_model.encoder.layers.{bid}.mlp.dense_4h_to_hz$model.layers.{bid}.mlp.dense_4h_to_hzh.{bid}.mlp.c_projztransformer.h.{bid}.mlp.fc2zmodel.layers.{bid}.mlp.fc2z'model.layers.layers.{bid}.mlp.down_projz"model.layers.{bid}.feed_forward.w2zencoder.layers.{bid}.mlp.fc2zmodel.layers.{bid}.mlp.c_projzencoder.layer.{bid}.mlp.woz#transformer.layers.{bid}.ffn.proj_2z"model.layers.{bid}.residual_mlp.w2z"encoder.layer.{bid}.mlp.down_layerz&encoder.layers.{bid}.mlp.dense_4h_to_hzmodel.layers.h.{bid}.mlp.c_projr4   z transformer_encoder.{bid}.ffn.w3z(model.layers.{bid}.block_sparse_moe.downz%model.transformer.blocks.{bid}.ff_outr6   z%backbone.layers.{bid}.mixer.down_projz-model.layers.{bid}.mlp.language_mlp.down_proj)
z$layers.{bid}.feed_forward.experts.w2z,transformer.decoder_layer.{bid}.moe.linear_1z+transformer.blocks.{bid}.ffn.experts.mlp.w2z(model.layers.{bid}.mlp.experts.down_projz1model.layers.{bid}.block_sparse_moe.output_linearz.model.layers.{bid}.block_sparse_moe.experts.w2z1model.layers.{bid}.feed_forward.experts.down_projz'encoder.layers.{bid}.mlp.experts.mlp.w2z0model.layers.{bid}.block_sparse_moe.experts.downz model.layers.{bid}.moe.down_proj)	z.model.layers.{bid}.mlp.shared_expert.down_projz/model.layers.{bid}.mlp.shared_experts.down_projz7model.layers.{bid}.feed_forward.shared_expert.down_projz+model.layers.{bid}.shared_mlp.output_linearz+model.layers.{bid}.mlp.shared_mlp.down_projzlayers.{bid}.shared_experts.w2z4backbone.layers.{bid}.mixer.shared_experts.down_projz<model.layers.{bid}.block_sparse_moe.shared_experts.down_projz)model.layers.{bid}.share_expert.down_proj)z.model.layers.{bid}.mlp.chunk_experts.down_proj)z>language_model.encoder.layers.{bid}.self_attention.q_layernormz(model.layers.{bid}.self_attn.q_layernormz,model.layers.{bid}.self_attn.query_layernormú,model.layers.{bid}.attention.query_layernormz#model.layers.{bid}.self_attn.q_normúlayers.{bid}.self_attn.q_normz"transformer.blocks.{bid}.attn.q_lnz/encoder.layer.{bid}.attention.self.layer_norm_qz$transformer.layers.{bid}.attn.q_normz!model.layers.layers.{bid}.mixer.qz&model.layers.layers.{bid}.mixer.q_normr8   r7   )z>language_model.encoder.layers.{bid}.self_attention.k_layernormz(model.layers.{bid}.self_attn.k_layernormz*model.layers.{bid}.self_attn.key_layernormú*model.layers.{bid}.attention.key_layernormz#model.layers.{bid}.self_attn.k_normúlayers.{bid}.self_attn.k_normz"transformer.blocks.{bid}.attn.k_lnz/encoder.layer.{bid}.attention.self.layer_norm_kz$transformer.layers.{bid}.attn.k_normz!model.layers.layers.{bid}.mixer.kz&model.layers.layers.{bid}.mixer.k_normr:   r9   )zFlanguage_model.encoder.layers.{bid}.self_attention.rotary_emb.inv_freq)z$encoder.layer.{bid}.output.LayerNormz)transformer.layer.{bid}.output_layer_normzencoder.layers.{bid}.norm2z*transformer.decoder_layer.{bid}.rms_norm_3z!encoder.layer.{bid}.mlp.layernormz encoder.layer.{bid}.layer_norm_2z"model.layers.{bid}.final_layernorm)zmodel.embed_tokens_per_layer)z model.per_layer_model_projection)zmodel.per_layer_projection_norm)zmodel.altup_projections)zmodel.altup_unembed_projections)z'model.layers.{bid}.per_layer_input_gate)z'model.layers.{bid}.per_layer_projection)z,model.layers.{bid}.post_per_layer_input_norm)z)model.layers.{bid}.altup.correction_coefs)z-model.layers.{bid}.altup.correct_output_scale)z)model.layers.{bid}.altup.prediction_coefs)z(model.layers.{bid}.altup.modality_router)z$model.layers.{bid}.altup.router_norm)z%model.layers.{bid}.laurel.linear_left)z&model.layers.{bid}.laurel.linear_right)z*model.layers.{bid}.laurel.post_laurel_norm)zmodel.layers.{bid}.in_projz#backbone.layers.{bid}.mixer.in_projz model.layers.{bid}.mamba.in_projz'model.layers.layers.{bid}.mixer.in_projz+model.layers.{bid}.linear_attn.in_proj_qkvz)zmodel.layers.{bid}.conv1dz"backbone.layers.{bid}.mixer.conv1dzmodel.layers.{bid}.mamba.conv1dz&model.layers.layers.{bid}.mixer.conv1dz%model.layers.{bid}.linear_attn.conv1d)zmodel.layers.{bid}.x_projz"backbone.layers.{bid}.mixer.x_projzmodel.layers.{bid}.mamba.x_projz)model.layers.layers.{bid}.mixer.bcdt_proj)zmodel.layers.{bid}.dt_projz#backbone.layers.{bid}.mixer.dt_projz model.layers.{bid}.mamba.dt_projz'model.layers.layers.{bid}.mixer.dt_projz&model.layers.{bid}.linear_attn.dt_projzbackbone.layers.{bid}.mixer.dtz$model.layers.{bid}.self_attn.dt_proj)z.model.layers.layers.{bid}.mixer.dt_norm.weightz%model.layers.{bid}.mamba.dt_layernorm)zmodel.layers.{bid}.A_logz!backbone.layers.{bid}.mixer.A_logzmodel.layers.{bid}.mamba.A_logz%model.layers.layers.{bid}.mixer.A_logz$model.layers.{bid}.linear_attn.A_logz"model.layers.{bid}.self_attn.A_log)z$model.layers.{bid}.mamba.b_layernormz$model.layers.{bid}.mamba.B_layernormz-model.layers.layers.{bid}.mixer.B_norm.weight)z$model.layers.{bid}.mamba.c_layernormz$model.layers.{bid}.mamba.C_layernormz-model.layers.layers.{bid}.mixer.C_norm.weight)zmodel.layers.{bid}.Dzbackbone.layers.{bid}.mixer.Dzmodel.layers.{bid}.mamba.Dz!model.layers.layers.{bid}.mixer.D)zmodel.layers.{bid}.mamba.normz#model.layers.{bid}.linear_attn.normz backbone.layers.{bid}.mixer.normz#model.layers.{bid}.self_attn.o_norm)zmodel.layers.{bid}.out_projz$backbone.layers.{bid}.mixer.out_projz!model.layers.{bid}.mamba.out_projz'model.layers.{bid}.linear_attn.out_projz(model.layers.layers.{bid}.mixer.out_proj)z(model.layers.{bid}.linear_attn.in_proj_a)z)model.layers.{bid}.linear_attn.in_proj_ba)z%model.layers.{bid}.self_attn.q_conv1d)z%model.layers.{bid}.self_attn.k_conv1d)z%model.layers.{bid}.self_attn.v_conv1d)z%model.layers.{bid}.self_attn.f_a_proj)z%model.layers.{bid}.self_attn.f_b_proj)z(model.layers.{bid}.linear_attn.in_proj_bz#model.layers.{bid}.self_attn.b_proj)z%model.layers.{bid}.self_attn.g_a_proj)z%model.layers.{bid}.self_attn.g_b_proj)zmodel.layers.{bid}.attention.w0)z'rwkv.blocks.{bid}.attention.time_maa_w1z(model.layers.{bid}.self_attn.time_maa_w1zmodel.layers.{bid}.attention.w1)z'rwkv.blocks.{bid}.attention.time_maa_w2z(model.layers.{bid}.self_attn.time_maa_w2zmodel.layers.{bid}.attention.w2)zmodel.layers.{bid}.attention.a0)zmodel.layers.{bid}.attention.a1)zmodel.layers.{bid}.attention.a2)zmodel.layers.{bid}.attention.v0)zmodel.layers.{bid}.attention.v1)zmodel.layers.{bid}.attention.v2)zmodel.layers.{bid}.attention.g1)zmodel.layers.{bid}.attention.g2)z model.layers.{bid}.attention.k_k)z model.layers.{bid}.attention.k_a)z model.layers.{bid}.attention.r_k)z&rwkv.blocks.{bid}.attention.time_maa_xz'model.layers.{bid}.self_attn.time_maa_x)z&rwkv.blocks.{bid}.attention.time_maa_kz'model.layers.{bid}.self_attn.time_maa_k)z&rwkv.blocks.{bid}.attention.time_maa_vz'model.layers.{bid}.self_attn.time_maa_v)z&rwkv.blocks.{bid}.attention.time_maa_rz'model.layers.{bid}.self_attn.time_maa_r)z&rwkv.blocks.{bid}.attention.time_maa_gz'model.layers.{bid}.self_attn.time_maa_g)z&rwkv.blocks.{bid}.attention.time_maa_wz'model.layers.{bid}.self_attn.time_maa_w)z&rwkv.blocks.{bid}.attention.time_faaaa)z&rwkv.blocks.{bid}.attention.time_decayz'model.layers.{bid}.self_attn.time_decay)z)rwkv.blocks.{bid}.attention.time_decay_w1z*model.layers.{bid}.self_attn.time_decay_w1)z)rwkv.blocks.{bid}.attention.time_decay_w2z*model.layers.{bid}.self_attn.time_decay_w2)zrwkv.blocks.{bid}.attention.keyr*   z model.layers.{bid}.attention.keyz#model.layers.{bid}.attention.k_proj)z!rwkv.blocks.{bid}.attention.valuer,   z"model.layers.{bid}.attention.valuez#model.layers.{bid}.attention.v_proj)z&rwkv.blocks.{bid}.attention.receptancer(   z'model.layers.{bid}.attention.receptancez#model.layers.{bid}.attention.r_proj)z rwkv.blocks.{bid}.attention.gatez!model.layers.{bid}.self_attn.gate)z rwkv.blocks.{bid}.attention.ln_xz!model.layers.{bid}.attention.ln_x)z"rwkv.blocks.{bid}.attention.outputr.   z#model.layers.{bid}.attention.outputz#model.layers.{bid}.attention.o_proj)z)rwkv.blocks.{bid}.feed_forward.time_maa_kz#model.layers.{bid}.feed_forward.x_k)z)rwkv.blocks.{bid}.feed_forward.time_maa_r)z"rwkv.blocks.{bid}.feed_forward.keyz#model.layers.{bid}.feed_forward.key)z)rwkv.blocks.{bid}.feed_forward.receptance)z$rwkv.blocks.{bid}.feed_forward.valuez%model.layers.{bid}.feed_forward.value)z%model.layers.{bid}.self_attn.q_a_projzlayers.{bid}.attention.wq_a)z%model.layers.{bid}.self_attn.q_b_projzlayers.{bid}.attention.wq_b)z/model.layers.{bid}.self_attn.kv_a_proj_with_mqaz%layers.{bid}.attention.wkv_a_with_mqa)z&model.layers.{bid}.self_attn.kv_b_proj)z%model.layers.{bid}.self_attn.k_b_projzlayers.{bid}.attention.k_b_proj)z%model.layers.{bid}.self_attn.v_b_projzlayers.{bid}.attention.v_b_proj)z*model.layers.{bid}.self_attn.q_a_layernormzlayers.{bid}.attention.q_a_norm)z+model.layers.{bid}.self_attn.kv_a_layernormz layers.{bid}.attention.kv_a_norm)z*model.layers.{bid}.self_attn.inner_attn_ln)z$model.layers.{bid}.mlp.ffn_layernorm)z&decoder.block.{bid}.layer.0.layer_norm)z+decoder.block.{bid}.layer.0.SelfAttention.q)z+decoder.block.{bid}.layer.0.SelfAttention.k)z+decoder.block.{bid}.layer.0.SelfAttention.v)z+decoder.block.{bid}.layer.0.SelfAttention.o)zAdecoder.block.{bid}.layer.0.SelfAttention.relative_attention_bias)z&decoder.block.{bid}.layer.1.layer_norm)z-decoder.block.{bid}.layer.1.EncDecAttention.q)z-decoder.block.{bid}.layer.1.EncDecAttention.k)z-decoder.block.{bid}.layer.1.EncDecAttention.v)z-decoder.block.{bid}.layer.1.EncDecAttention.o)zCdecoder.block.{bid}.layer.1.EncDecAttention.relative_attention_bias)z&decoder.block.{bid}.layer.2.layer_norm)z/decoder.block.{bid}.layer.2.DenseReluDense.wi_0)z-decoder.block.{bid}.layer.2.DenseReluDense.wiz/decoder.block.{bid}.layer.2.DenseReluDense.wi_1)z-decoder.block.{bid}.layer.2.DenseReluDense.wo)zdecoder.final_layer_norm)z&encoder.block.{bid}.layer.0.layer_norm)z+encoder.block.{bid}.layer.0.SelfAttention.q)z+encoder.block.{bid}.layer.0.SelfAttention.k)z+encoder.block.{bid}.layer.0.SelfAttention.v)z+encoder.block.{bid}.layer.0.SelfAttention.o)zAencoder.block.{bid}.layer.0.SelfAttention.relative_attention_bias)z&encoder.block.{bid}.layer.1.layer_norm)z/encoder.block.{bid}.layer.1.DenseReluDense.wi_0)z-encoder.block.{bid}.layer.1.DenseReluDense.wiz/encoder.block.{bid}.layer.1.DenseReluDense.wi_1)z-encoder.block.{bid}.layer.1.DenseReluDense.wo)z)model.layers.{bid}.mlp.vision_mlp.up_proj)z+model.layers.{bid}.mlp.vision_mlp.gate_proj)z+model.layers.{bid}.mlp.vision_mlp.down_proj)z0model.layers.{bid}.self_attn.vision_expert_dense)z:model.layers.{bid}.self_attn.vision_expert_query_key_value)z+model.layers.{bid}.self_attn.indexer.k_norm)z1model.layers.{bid}.self_attn.indexer.weights_proj)z'model.layers.{bid}.self_attn.indexer.wk)z)model.layers.{bid}.self_attn.indexer.wq_b)zencoder.final_layer_normÚ
layer_norm)Ú
classifierzclassifier.denseÚpre_classifierÚdensez
head.dense)zclassifier.out_proj)z	head.norm)zbackbone.convnext.{bid}.dwconv)zbackbone.convnext.{bid}.norm)zbackbone.convnext.{bid}.pwconv1)zbackbone.convnext.{bid}.pwconv2)zbackbone.convnext.{bid}.gamma)zbackbone.posnet.{bid}.conv1)zbackbone.posnet.{bid}.conv2)zbackbone.posnet.{bid}.norm)zbackbone.posnet.{bid}.norm1)zbackbone.posnet.{bid}.norm2)zbackbone.posnet.{bid}.q)zbackbone.posnet.{bid}.k)zbackbone.posnet.{bid}.v)zbackbone.posnet.{bid}.proj_out)zmodel.layers.{bid}.conv.conv)zmodel.layers.{bid}.conv.in_proj)z model.layers.{bid}.conv.out_proj)z"multi_modal_projector.linear_{bid}zmm_projector.proj.linear_{bid}zvisual.merger.mlp.{bid}zmlp_AR.linear_{bid}zmerger.mlp.{bid})z(model.connector.modality_projection.projz$model.vision.linear_proj.linear_projzvisual.merger.proj)z model.mm_projector.mlp.mlp.{bid}z'vision_model.vision_adapter.mlp.fc{bid}z
mlp1.{bid}z%model.aligner.fc1.hidden_layers.{bid})z model.mm_projector.peg.peg.{bid})z4vision_tower.vision_model.embeddings.class_embeddingz'model.vision_tower.embeddings.cls_tokenzvision_model.class_embeddingz*model.vision.patch_embedding.cls_embeddingz>vision_model.radio_model.model.patch_generator.cls_token.token)z4vision_tower.vision_model.embeddings.patch_embeddingz9model.vision_tower.embeddings.patch_embeddings.projectionzvpm.embeddings.patch_embeddingz-model.vision_model.embeddings.patch_embeddingzvision_tower.patch_convzvision_encoder.patch_convz#vision_model.patch_embedding.linearzvisual.patch_embed.projzvision_tower.patch_embed.projz!model.vision.patch_embedding.projz/siglip2.vision_model.embeddings.patch_embeddingz7vision_model.radio_model.model.patch_generator.embedder)zvisual.post_conv_layernorm)
z7vision_tower.vision_model.embeddings.position_embeddingz1model.vision_tower.embeddings.position_embeddingsz!vpm.embeddings.position_embeddingz0model.vision_model.embeddings.position_embeddingz%vision_model.positional_embedding_vlmz vision_tower.patch_embed.pos_embzvisual.pos_embedz/model.vision.patch_embedding.position_embeddingz$visual.embeddings.position_embeddingz8vision_model.radio_model.model.patch_generator.pos_embed)zvisual.blocks.{bid}.attn.qkvz?model.vision.transformer.layers.{bid}.attention.query_key_valuez&vision_tower.encoder.blocks.{bid}.wqkvz4vision_model.radio_model.model.blocks.{bid}.attn.qkv)
z?vision_tower.vision_model.encoder.layers.{bid}.self_attn.q_projz7model.vision_tower.encoder.layer.{bid}.attention.q_projz)vpm.encoder.layers.{bid}.self_attn.q_projz8model.vision_model.encoder.layers.{bid}.self_attn.q_projz0vision_model.model.layers.{bid}.self_attn.q_projz6vision_tower.transformer.layers.{bid}.attention.q_projz4vision_encoder.transformer.layers.{bid}.attention.wqzvisual.blocks.{bid}.attn.qz$vision_tower.encoder.blocks.{bid}.wqz:siglip2.vision_model.encoder.layers.{bid}.self_attn.q_proj)z:vision_tower.vision_model.encoder.layers.{bid}.attn.q_normz7model.vision_tower.encoder.layer.{bid}.attention.q_normzvisual.blocks.{bid}.attn.q_norm)
z?vision_tower.vision_model.encoder.layers.{bid}.self_attn.k_projz7model.vision_tower.encoder.layer.{bid}.attention.k_projz)vpm.encoder.layers.{bid}.self_attn.k_projz8model.vision_model.encoder.layers.{bid}.self_attn.k_projz0vision_model.model.layers.{bid}.self_attn.k_projz6vision_tower.transformer.layers.{bid}.attention.k_projz4vision_encoder.transformer.layers.{bid}.attention.wkzvisual.blocks.{bid}.attn.kz$vision_tower.encoder.blocks.{bid}.wkz:siglip2.vision_model.encoder.layers.{bid}.self_attn.k_proj)z:vision_tower.vision_model.encoder.layers.{bid}.attn.k_normz7model.vision_tower.encoder.layer.{bid}.attention.k_normzvisual.blocks.{bid}.attn.k_norm)
z?vision_tower.vision_model.encoder.layers.{bid}.self_attn.v_projz7model.vision_tower.encoder.layer.{bid}.attention.v_projz)vpm.encoder.layers.{bid}.self_attn.v_projz8model.vision_model.encoder.layers.{bid}.self_attn.v_projz0vision_model.model.layers.{bid}.self_attn.v_projz6vision_tower.transformer.layers.{bid}.attention.v_projz4vision_encoder.transformer.layers.{bid}.attention.wvzvisual.blocks.{bid}.attn.vz$vision_tower.encoder.blocks.{bid}.wvz:siglip2.vision_model.encoder.layers.{bid}.self_attn.v_proj)z:vision_tower.vision_model.encoder.layers.{bid}.layer_norm1z4vision_tower.vision_model.encoder.layers.{bid}.norm1z7model.vision_tower.encoder.layer.{bid}.layernorm_beforez$vpm.encoder.layers.{bid}.layer_norm1z3model.vision_model.encoder.layers.{bid}.layer_norm1z4vision_tower.transformer.layers.{bid}.attention_normz6vision_encoder.transformer.layers.{bid}.attention_normz/vision_model.model.layers.{bid}.input_layernormzvisual.blocks.{bid}.norm1z'vision_tower.encoder.blocks.{bid}.norm0z5model.vision.transformer.layers.{bid}.input_layernormz5siglip2.vision_model.encoder.layers.{bid}.layer_norm1z1vision_model.radio_model.model.blocks.{bid}.norm1)zAvision_tower.vision_model.encoder.layers.{bid}.self_attn.out_projz8vision_tower.vision_model.encoder.layers.{bid}.attn.projzAmodel.vision_tower.encoder.layer.{bid}.attention.projection_layerz+vpm.encoder.layers.{bid}.self_attn.out_projz:model.vision_model.encoder.layers.{bid}.self_attn.out_projzBmodel.vision_model.encoder.layers.{bid}.self_attn.projection_layerz0vision_model.model.layers.{bid}.self_attn.o_projz6vision_tower.transformer.layers.{bid}.attention.o_projz4vision_encoder.transformer.layers.{bid}.attention.wozvisual.blocks.{bid}.attn.projz$vision_tower.encoder.blocks.{bid}.woz5model.vision.transformer.layers.{bid}.attention.densez<siglip2.vision_model.encoder.layers.{bid}.self_attn.out_projz5vision_model.radio_model.model.blocks.{bid}.attn.proj)z:vision_tower.vision_model.encoder.layers.{bid}.layer_norm2z4vision_tower.vision_model.encoder.layers.{bid}.norm2z6model.vision_tower.encoder.layer.{bid}.layernorm_afterz$vpm.encoder.layers.{bid}.layer_norm2z3model.vision_model.encoder.layers.{bid}.layer_norm2z8vision_model.model.layers.{bid}.post_attention_layernormz.vision_tower.transformer.layers.{bid}.ffn_normz0vision_encoder.transformer.layers.{bid}.ffn_normzvisual.blocks.{bid}.norm2z'vision_tower.encoder.blocks.{bid}.norm1z>model.vision.transformer.layers.{bid}.post_attention_layernormz5siglip2.vision_model.encoder.layers.{bid}.layer_norm2z1vision_model.radio_model.model.blocks.{bid}.norm2)z6vision_tower.vision_model.encoder.layers.{bid}.mlp.fc1z.model.vision_tower.encoder.layer.{bid}.mlp.fc1z vpm.encoder.layers.{bid}.mlp.fc1z/model.vision_model.encoder.layers.{bid}.mlp.fc1z:vision_tower.transformer.layers.{bid}.feed_forward.up_projz7vision_encoder.transformer.layers.{bid}.feed_forward.w3z'vision_model.model.layers.{bid}.mlp.fc1zvisual.blocks.{bid}.mlp.fc1zvisual.blocks.{bid}.mlp.up_projz"visual.blocks.{bid}.mlp.linear_fc1z)vision_tower.encoder.blocks.{bid}.mlp.fc0z-model.vision.transformer.layers.{bid}.mlp.fc1z1siglip2.vision_model.encoder.layers.{bid}.mlp.fc1z3vision_model.radio_model.model.blocks.{bid}.mlp.fc1)z<vision_tower.transformer.layers.{bid}.feed_forward.gate_projz7vision_encoder.transformer.layers.{bid}.feed_forward.w1z!visual.blocks.{bid}.mlp.gate_proj)z6vision_tower.vision_model.encoder.layers.{bid}.mlp.fc2z.model.vision_tower.encoder.layer.{bid}.mlp.fc2z vpm.encoder.layers.{bid}.mlp.fc2z/model.vision_model.encoder.layers.{bid}.mlp.fc2z<vision_tower.transformer.layers.{bid}.feed_forward.down_projz7vision_encoder.transformer.layers.{bid}.feed_forward.w2z'vision_model.model.layers.{bid}.mlp.fc2zvisual.blocks.{bid}.mlp.fc2z!visual.blocks.{bid}.mlp.down_projz"visual.blocks.{bid}.mlp.linear_fc2z)vision_tower.encoder.blocks.{bid}.mlp.fc1z-model.vision.transformer.layers.{bid}.mlp.fc2z1siglip2.vision_model.encoder.layers.{bid}.mlp.fc2z3vision_model.radio_model.model.blocks.{bid}.mlp.fc2)z2vision_tower.vision_model.encoder.layers.{bid}.ls1z/model.vision_tower.encoder.layer.{bid}.lambda_1)z2vision_tower.vision_model.encoder.layers.{bid}.ls2z/model.vision_tower.encoder.layer.{bid}.lambda_2)z&vision_tower.vision_model.pre_layrnormzvision_tower.ln_prezvision_encoder.ln_prezvision_model.layernorm_pre)z(vision_tower.vision_model.post_layernormz!model.vision_model.post_layernormzvision_model.layernorm_postzvisual.merger.ln_qz$vision_tower.encoder.final_layernormzvisual.post_layernormz#siglip2.vision_model.post_layernorm)z"visual.merger.post_projection_norm)z)multi_modal_projector.mm_input_projection)zmulti_modal_projector.normz multi_modal_projector.layer_normzmulti_modal_projector.pre_normzmm_projector.pre_normÚpre_mm_projector_normúmodel.vision.linear_proj.norm1zmlp_AR.pre_normzmerger.ln_q)z&multi_modal_projector.mm_soft_emb_norm)zresampler.pos_embed_k)zresampler.attn.in_proj_q)zresampler.attn.in_proj_k)zresampler.attn.in_proj_v)zresampler.attn.out_projz*model.vision_model.head.attention.out_proj)zresampler.kv_proj)zresampler.ln_post)zresampler.ln_kv)zresampler.ln_q)zresampler.proj)zresampler.query)zv.token_embd.img_break)z0multi_modal_projector.patch_merger.merging_layerzpatch_merger.merging_layerzvisual.downsample)z-model.visual.deepstack_merger_list.{bid}.norm)z3model.visual.deepstack_merger_list.{bid}.linear_fc1)z3model.visual.deepstack_merger_list.{bid}.linear_fc2)r@   )z&model.vision.linear_proj.dense_h_to_4hzvisual.merger.up_proj)z&model.vision.linear_proj.dense_4h_to_hzvisual.merger.down_proj)z"model.vision.linear_proj.gate_projzvisual.merger.gate_proj)zmodel.vision.boi)zmodel.vision.eoi)zaudio_tower.embed_positionszaudio_embedding.embedding)zaudio_embedding.embedding_norm)zaudio_embedding.to_logits)zaudio_tower.conv{bid}zconformer.pre_encode.conv.{bid}z;model.audio_tower.subsample_conv_projection.conv_{bid}.conv)z;model.audio_tower.subsample_conv_projection.conv_{bid}.norm)zaudio_tower.layer_normzaudio_tower.ln_post)z)audio_tower.layers.{bid}.self_attn.q_projz)conformer.layers.{bid}.self_attn.linear_qz,conformer.layers.{bid}.attention.attn.q_proj)z)audio_tower.layers.{bid}.self_attn.k_projz)conformer.layers.{bid}.self_attn.linear_kz,conformer.layers.{bid}.attention.attn.k_proj)z)audio_tower.layers.{bid}.self_attn.v_projz)conformer.layers.{bid}.self_attn.linear_vz,conformer.layers.{bid}.attention.attn.v_proj)z3conformer.layers.{bid}.attention.attn.per_dim_scale)zconformer.layers.{bid}.norm)z-audio_tower.layers.{bid}.self_attn_layer_normz$conformer.layers.{bid}.norm_self_attz.conformer.layers.{bid}.attention.pre_attn_norm)z+audio_tower.layers.{bid}.self_attn.out_projz+conformer.layers.{bid}.self_attn.linear_outz%conformer.layers.{bid}.attention.post)z)audio_tower.layers.{bid}.final_layer_normzconformer.layers.{bid}.norm_outz*conformer.layers.{bid}.attention.post_norm)z)conformer.layers.{bid}.norm_feed_forward1z5conformer.layers.{bid}.ffw_layer_start.pre_layer_norm)z6conformer.layers.{bid}.ffw_layer_start.post_layer_norm)z7conformer.layers.{bid}.ffw_layer_start.post_layer_scale)zaudio_tower.layers.{bid}.fc1z,conformer.layers.{bid}.feed_forward1.linear1z2conformer.layers.{bid}.ffw_layer_start.ffw_layer_1)zaudio_tower.layers.{bid}.fc2z,conformer.layers.{bid}.feed_forward1.linear2z2conformer.layers.{bid}.ffw_layer_start.ffw_layer_2)z,conformer.layers.{bid}.feed_forward2.linear1z0conformer.layers.{bid}.ffw_layer_end.ffw_layer_1)z,conformer.layers.{bid}.feed_forward2.linear2z0conformer.layers.{bid}.ffw_layer_end.ffw_layer_2)z)conformer.layers.{bid}.norm_feed_forward2z3conformer.layers.{bid}.ffw_layer_end.pre_layer_norm)z4conformer.layers.{bid}.ffw_layer_end.post_layer_norm)z5conformer.layers.{bid}.ffw_layer_end.post_layer_scale)z+conformer.layers.{bid}.self_attn.linear_poszJconformer.layers.{bid}.attention.attn.relative_position_embedding.pos_proj)z+conformer.layers.{bid}.self_attn.pos_bias_u)z+conformer.layers.{bid}.self_attn.pos_bias_v)zconformer.pre_encode.outz=model.audio_tower.subsample_conv_projection.input_proj_linear)z(audio.multi_modal_projector.linear_{bid}zaudio_adapter.model.{bid})z"audio.multi_modal_projector.linearzaudio_tower.proj)z"audio.multi_modal_projector.ln_pre)z"audio.multi_modal_projector.ln_mid)z*conformer.layers.{bid}.conv.depthwise_convz/conformer.layers.{bid}.lconv1d.depthwise_conv1d)z&conformer.layers.{bid}.conv.batch_normz-conformer.layers.{bid}.lconv1d.pre_layer_norm)z+conformer.layers.{bid}.conv.pointwise_conv1z+conformer.layers.{bid}.lconv1d.linear_start)z+conformer.layers.{bid}.conv.pointwise_conv2z)conformer.layers.{bid}.lconv1d.linear_end)z conformer.layers.{bid}.norm_convz(conformer.layers.{bid}.lconv1d.conv_norm)zmodel.embed_audio.embedding)z%model.embed_audio.hard_embedding_norm)z&model.embed_audio.embedding_projection)z%model.embed_audio.soft_embedding_norm)zmodel.layers.{bid}.eh_proj)zmodel.layers.{bid}.embed_tokens)zmodel.layers.{bid}.enorm)zmodel.layers.{bid}.hnorm)z#model.layers.{bid}.shared_head.head)z#model.layers.{bid}.shared_head.normÚblock_mappings_cfg)z%model.layers.{bid}.residual_layernorm)r'   z5dict[MODEL_ARCH, dict[MODEL_TENSOR, tuple[str, ...]]]Úarch_block_mappings_cfgz#dict[str, tuple[MODEL_TENSOR, str]]ÚmappingÚarchr   Ún_blocksÚintc                 C  sè   i | _ | j ¡ D ]"\}}|t| vrqt| }||f| j |< |D ]	}||f| j |< q q|| jv r9| j | j| ¡ t|ƒD ]4}| j ¡ D ],\}}|t| vrOqDt| j	|d}||f| j |< |D ]}|j	|d}||f| j |< q`qDq=d S )N)Úbid)
rC   r"   Úitemsr   r   rB   rA   ÚupdateÚrangeÚformat)ÚselfrD   rE   ÚtensorÚkeysÚtensor_nameÚkeyrG   r!   r!   úI/home/ubuntu/vllm_env/lib/python3.10/site-packages/gguf/tensor_mapping.pyÚ__init__‡  s.   ÿ
þúÿzTensorNameMap.__init__rP   ÚstrÚtry_suffixesúSequence[str]Úreturnútuple[MODEL_TENSOR, str] | Nonec                 C  sj   | j  |¡}|d ur|S |D ]$}| |¡r2| j  |d t|ƒ … ¡}|d ur2|d |d | f  S qd S )Nr   r   )rC   ÚgetÚendswithÚlen)rL   rP   rT   ÚresultÚsuffixr!   r!   rQ   Úget_type_and_name  s   
€zTensorNameMap.get_type_and_nameú
str | Nonec                 C  ó"   | j ||d}|d u rd S |d S )N©rT   r   ©r]   ©rL   rP   rT   r[   r!   r!   rQ   Úget_name¨  ó   zTensorNameMap.get_nameúMODEL_TENSOR | Nonec                 C  r_   )Nr`   r   ra   rb   r!   r!   rQ   Úget_type®  rd   zTensorNameMap.get_typec                 C  s(   z| j | d W S  ty   t|ƒ‚w )Nr   )rC   ÚKeyError©rL   rP   r!   r!   rQ   Ú__getitem__´  s
   ÿzTensorNameMap.__getitem__Úboolc                 C  s
   || j v S ©N)rC   rh   r!   r!   rQ   Ú__contains__º  ó   
zTensorNameMap.__contains__c                 C  s
   t | jƒS rk   )ÚreprrC   )rL   r!   r!   rQ   Ú__repr__½  rm   zTensorNameMap.__repr__N)rD   r   rE   rF   )r!   )rP   rS   rT   rU   rV   rW   )rP   rS   rT   rU   rV   r^   )rP   rS   rT   rU   rV   re   )rP   rS   rV   rS   )rP   rS   rV   rj   )rV   rS   (9  Ú__name__Ú
__module__Ú__qualname__r   Ú
TOKEN_EMBDÚTOKEN_TYPESÚTOKEN_EMBD_NORMÚPOS_EMBDÚOUTPUTÚDENSE_2_OUTÚDENSE_3_OUTÚOUTPUT_NORMÚ
ROPE_FREQSÚROPE_FACTORS_LONGÚROPE_FACTORS_SHORTÚCONV1DÚV_MM_EMBEDDINGÚV_MM_HARD_EMB_NORMÚV_MM_INP_PROJÚV_MM_SOFT_EMB_NORMÚV_ENC_CONV_STEMÚV_ENC_CONV_STEM_NORMÚV_ENC_MSFA_EXPÚV_ENC_MSFA_EXP_NORMÚV_ENC_MSFA_PROJÚV_ENC_MSFA_PROJ_NORMÚV_ENC_MSFA_NORMr"   Ú__annotations__Ú	ATTN_NORMÚATTN_NORM_2ÚATTN_QKVÚATTN_QÚATTN_KÚATTN_VÚATTN_OUTÚATTN_OUT_NORMÚATTN_POST_NORMÚATTN_ROT_EMBDÚ
ATTN_SINKSÚ	ATTN_GATEÚFFN_NORMÚFFN_PRE_NORMÚFFN_POST_NORMÚFFN_GATE_INPÚFFN_GATE_INP_SHEXPÚFFN_EXP_PROBS_BÚFFN_UPÚ
FFN_UP_EXPÚFFN_UP_SHEXPÚFFN_UP_CHEXPÚFFN_ACTÚFFN_GATEÚFFN_GATE_EXPÚFFN_GATE_SHEXPÚFFN_GATE_CHEXPÚFFN_GATE_UP_EXPÚFFN_DOWNÚFFN_DOWN_EXPÚFFN_DOWN_SHEXPÚFFN_DOWN_CHEXPÚATTN_Q_NORMÚATTN_K_NORMÚLAYER_OUT_NORMÚPER_LAYER_TOKEN_EMBDÚPER_LAYER_MODEL_PROJÚPER_LAYER_PROJ_NORMÚ
ALTUP_PROJÚALTUP_UNEMBD_PROJÚPER_LAYER_INP_GATEÚPER_LAYER_PROJÚPER_LAYER_POST_NORMÚALTUP_CORRECT_COEFÚALTUP_CORRECT_SCALEÚALTUP_PREDICT_COEFÚALTUP_ROUTERÚALTUP_ROUTER_NORMÚLAUREL_LÚLAUREL_RÚLAUREL_POST_NORMÚSSM_INÚ
SSM_CONV1DÚSSM_XÚSSM_DTÚSSM_DT_NORMÚSSM_AÚ
SSM_B_NORMÚ
SSM_C_NORMÚSSM_DÚSSM_NORMÚSSM_OUTÚ	SSM_ALPHAÚSSM_BETA_ALPHAÚSSM_CONV1D_QÚSSM_CONV1D_KÚSSM_CONV1D_VÚSSM_F_AÚSSM_F_BÚSSM_BETAÚSSM_G_AÚSSM_G_BÚTIME_MIX_W0ÚTIME_MIX_W1ÚTIME_MIX_W2ÚTIME_MIX_A0ÚTIME_MIX_A1ÚTIME_MIX_A2ÚTIME_MIX_V0ÚTIME_MIX_V1ÚTIME_MIX_V2ÚTIME_MIX_G1ÚTIME_MIX_G2ÚTIME_MIX_K_KÚTIME_MIX_K_AÚTIME_MIX_R_KÚTIME_MIX_LERP_XÚTIME_MIX_LERP_KÚTIME_MIX_LERP_VÚTIME_MIX_LERP_RÚTIME_MIX_LERP_GÚTIME_MIX_LERP_WÚTIME_MIX_FIRSTÚTIME_MIX_DECAYÚTIME_MIX_DECAY_W1ÚTIME_MIX_DECAY_W2ÚTIME_MIX_KEYÚTIME_MIX_VALUEÚTIME_MIX_RECEPTANCEÚTIME_MIX_GATEÚTIME_MIX_LNÚTIME_MIX_OUTPUTÚCHANNEL_MIX_LERP_KÚCHANNEL_MIX_LERP_RÚCHANNEL_MIX_KEYÚCHANNEL_MIX_RECEPTANCEÚCHANNEL_MIX_VALUEÚATTN_Q_AÚATTN_Q_BÚATTN_KV_A_MQAÚ	ATTN_KV_BÚATTN_K_BÚATTN_V_BÚATTN_Q_A_NORMÚATTN_KV_A_NORMÚATTN_SUB_NORMÚFFN_SUB_NORMÚDEC_ATTN_NORMÚ
DEC_ATTN_QÚ
DEC_ATTN_KÚ
DEC_ATTN_VÚDEC_ATTN_OUTÚDEC_ATTN_REL_BÚDEC_CROSS_ATTN_NORMÚDEC_CROSS_ATTN_QÚDEC_CROSS_ATTN_KÚDEC_CROSS_ATTN_VÚDEC_CROSS_ATTN_OUTÚDEC_CROSS_ATTN_REL_BÚDEC_FFN_NORMÚDEC_FFN_GATEÚ
DEC_FFN_UPÚDEC_FFN_DOWNÚDEC_OUTPUT_NORMÚENC_ATTN_NORMÚ
ENC_ATTN_QÚ
ENC_ATTN_KÚ
ENC_ATTN_VÚENC_ATTN_OUTÚENC_ATTN_REL_BÚENC_FFN_NORMÚENC_FFN_GATEÚ
ENC_FFN_UPÚENC_FFN_DOWNÚ	VISEXP_UPÚVISEXP_GATEÚVISEXP_DOWNÚVISEXP_ATTN_OUTÚVISEXP_ATTN_QKVÚINDEXER_K_NORMÚINDEXER_PROJÚINDEXER_ATTN_KÚINDEXER_ATTN_Q_BÚENC_OUTPUT_NORMÚCLSÚCLS_OUTÚCLS_NORMÚCONVNEXT_DWÚCONVNEXT_NORMÚCONVNEXT_PW1ÚCONVNEXT_PW2ÚCONVNEXT_GAMMAÚPOSNET_CONV1ÚPOSNET_CONV2ÚPOSNET_NORMÚPOSNET_NORM1ÚPOSNET_NORM2ÚPOSNET_ATTN_NORMÚPOSNET_ATTN_QÚPOSNET_ATTN_KÚPOSNET_ATTN_VÚPOSNET_ATTN_OUTÚSHORTCONV_CONVÚSHORTCONV_INPROJÚSHORTCONV_OUTPROJÚV_MMPROJÚV_MMPROJ_FCÚV_MMPROJ_MLPÚV_MMPROJ_PEGÚV_ENC_EMBD_CLSÚV_ENC_EMBD_PATCHÚV_ENC_EMBD_NORMÚV_ENC_EMBD_POSÚV_ENC_ATTN_QKVÚV_ENC_ATTN_QÚV_ENC_ATTN_Q_NORMÚV_ENC_ATTN_KÚV_ENC_ATTN_K_NORMÚV_ENC_ATTN_VÚV_ENC_INPUT_NORMÚV_ENC_ATTN_OÚV_ENC_POST_ATTN_NORMÚV_ENC_FFN_UPÚV_ENC_FFN_GATEÚV_ENC_FFN_DOWNÚV_LAYER_SCALE_1ÚV_LAYER_SCALE_2Ú
V_PRE_NORMÚV_POST_NORMÚV_MM_POST_NORMÚV_MM_INP_NORMÚV_RESMPL_POS_EMBD_KÚV_RESMPL_ATTN_QÚV_RESMPL_ATTN_KÚV_RESMPL_ATTN_VÚV_RESMPL_ATTN_OUTÚV_RESMPL_KVÚV_RESMPL_POST_NORMÚV_RESMPL_KV_NORMÚV_RESMPL_Q_NORMÚV_RESMPL_PROJÚV_RESMPL_QUERYÚV_TOK_EMBD_IMG_BREAKÚV_MM_PATCH_MERGERÚ	V_DS_NORMÚV_DS_FC1ÚV_DS_FC2ÚV_MM_POST_FC_NORMÚV_MM_UPÚ	V_MM_DOWNÚ	V_MM_GATEÚ	V_TOK_BOIÚ	V_TOK_EOIÚA_ENC_EMBD_POSÚA_ENC_EMBD_NORMÚA_ENC_EMBD_TO_LOGITSÚA_ENC_CONV1DÚA_ENC_CONV1D_NORMÚ
A_PRE_NORMÚA_POST_NORMÚA_ENC_ATTN_QÚA_ENC_ATTN_KÚA_ENC_ATTN_VÚA_ENC_PER_DIM_SCALEÚA_ENC_LAYER_PRE_NORMÚA_ENC_INPUT_NORMÚA_ENC_OUTPUTÚA_ENC_OUTPUT_NORMÚA_ENC_FFN_NORMÚA_ENC_FFN_POST_NORMÚA_ENC_FFN_SCALEÚA_ENC_FFN_UPÚA_ENC_FFN_GATEÚA_ENC_FFN_DOWNÚA_ENC_FFN_UP_1ÚA_ENC_FFN_DOWN_1ÚA_ENC_FFN_NORM_1ÚA_ENC_FFN_POST_NORM_1ÚA_ENC_FFN_SCALE_1ÚA_ENC_LINEAR_POSÚA_ENC_POS_BIAS_UÚA_ENC_POS_BIAS_VÚ	A_ENC_OUTÚA_MMPROJÚA_MMPROJ_FCÚA_MM_NORM_PREÚA_MM_NORM_MIDÚA_ENC_CONV_DWÚA_ENC_CONV_NORMÚA_ENC_CONV_PW1ÚA_ENC_CONV_PW2ÚA_ENC_NORM_CONVÚA_MM_EMBEDDINGÚA_MM_HARD_EMB_NORMÚA_MM_INP_PROJÚA_MM_SOFT_EMB_NORMÚNEXTN_EH_PROJÚNEXTN_EMBED_TOKENSÚNEXTN_ENORMÚNEXTN_HNORMÚNEXTN_SHARED_HEAD_HEADÚNEXTN_SHARED_HEAD_NORMrA   r   ÚARCTICÚFFN_NORM_EXPrB   rR   r]   rc   rf   ri   rl   ro   r!   r!   r!   rQ   r	      s’$  
 þ!ß&Ú5Ë<ÄI·L´P°j–o‘prŽvŠy‡|„  ý  ë þ'Ù0ÐI·\¤p  ü + Õ 4 Ì < Ä C ½ H ¸ O ± k • s  | „    ð    ì  "  Þ  L  ´  X  ¨  d  œ  i  —  n  ’      þ      ó      é      å       à   E   »   R   ®   ^   ¢   b   ž   r   Ž        ý        ù        ï        ë        ç        ã    !    ß    %    Û    )    ×    -    Ó    1    Ï    5    Ë    9    Ç    =    Ã    A    ¿    E    »    I    ·    M    ³    Q    ¯    Y    §    a    Ÿ    h    ˜    r    Ž    w    ‰          ÿ          ù          ó          ì          å     #     Ý     '     Ù     ,     Ô     /     Ñ     2     Î     5     Ë     8     È     ;     Å     ?     Á     B     ¾     E     »     I     ·     O     ±     U     «     Y     §     ]     £     a     Ÿ     e     ›     i     —     m     “     q          u     ‹     y     ‡     }     ƒ            þ            ù            ô            ï            ê            å             à      $      Ü      )      ×      .      Ò      3      Í      :      Æ      A      ¿      H      ¸      M      ³      R      ®      Y      §      ^      ¢      b      ž      g      ™      k      •      p            u      ‹      z      †                          ü       	       ÷              ò              í              è              ä               à       $       Ü       (       Ø       ,       Ô       0       Ð       4       Ì       8       È       <       Ä       @       À       D       ¼       H       ¸       L       ´       P       °       T       ¬       X       ¨       ]       £       a       Ÿ       e       ›       i       —       m       “       q              u       ‹       y       ‡       }       ƒ                þ                ú                õ                ñ                í                é                å                á        #        Ý        '        Ù        +        Õ        /        Ñ        5        Ë        :        Æ        B        ¾        F        º        K        µ        O        ±        S        ­        W        ©        [        ¥        _        ¡        c                g        ™        k        •        o        ‘        s                w        ‰        {        …                                  ü                  ø                  ô                  ð                  é                  á         %         Û         ,         Ô         0         Ð         8         È         G         ¹         K         µ         X         ¨         _         ¡         l         ”         r         Ž                                      ú                    í          #          Ý          4          Ì          D          ¼          U          «          [          ¥          l          ”          q                    v          Š          }          ƒ                      ø                      ô                      ð                      å                      á           #           Ý           '           Ù           +           Õ           /           Ñ           4           Ì           8           È           <           Ä           @           À           D           ¼           H           ¸           L           ´           P           °           V           ª           Z           ¦           ^           ¢           b           ž           f           š           k           •           p                      u           ‹           y           ‡                                              û            	            ÷                        ó                        í                        é                        ç            
            â            
$            Ü            
*            Ö            
0            Ð            
4            Ì            
8            È            
>            Â            
D            ¼            
J            ¶            
O            ±            
S            ­            
W            ©            ]            £            
_            ¡            
e            ›            
j            –            
o            ‘            
t            Œ            
x            ˆ            
|            „             
             þ             
             ú             

             ö             
             î             
             é             
             ä             
              à             
$             Ü             
)             ×             
.             Ò             
3             Í             
8             È             
=             Ã             
@             À             
C             ½             
F             º             
K             µ             
O             ±             
S             ­             
W

             ¡             f
üÿr	   rD   r   rE   rF   rV   c                 C  s
   t | |ƒS rk   )r	   )rD   rE   r!   r!   rQ   Úget_tensor_name_mapÁ  rm   r  N)rD   r   rE   rF   rV   r	   )Ú
__future__r   Útypingr   Ú	constantsr   r   r   r   r	   r  r!   r!   r!   rQ   Ú<module>   s(                   H