better weight loading

lhallee · lhallee · commit 393bf2c41ef3 · 2026-02-24T14:13:11.000-05:00
diff --git a/dplm2_fastplms/modeling_dplm2.py b/dplm2_fastplms/modeling_dplm2.py
@@ -890,17 +890,38 @@ def forward(
         )
 
 
-class DPLM2Model(DPLM2PreTrainedModel, EmbeddingMixin):
-    config_class = DPLM2Config
+class FAST_DPLM2_ENCODER(DPLM2PreTrainedModel, EmbeddingMixin):
+    """Inner encoder class that holds the actual ESM-style weights (embeddings, encoder)
+    so that the weight keys are prefixed with 'esm.' in the outer DPLM2Model,
+    matching pretrained DPLM2 checkpoints."""
 
-    def __init__(self, config, add_pooling_layer=True):
-        DPLM2PreTrainedModel.__init__(self, config)
+    def __init__(self, config, **kwargs):
+        DPLM2PreTrainedModel.__init__(self, config, **kwargs)
         self.config = config
         self.embeddings = EsmEmbeddings(config)
         self.encoder = ModifiedEsmEncoder(config)
-        self.pooler = EsmPooler(config) if add_pooling_layer else None
         self.post_init()
 
+    def get_input_embeddings(self) -> nn.Module:
+        return self.embeddings.word_embeddings
+
+    def set_input_embeddings(self, value):
+        self.embeddings.word_embeddings = value
+
+    def _embed(self, input_ids: torch.Tensor, attention_mask: Optional[torch.Tensor] = None) -> torch.Tensor:
+        if attention_mask is None:
+            attention_mask = input_ids.ne(self.config.pad_token_id)
+        type_ids = _infer_modality_type(input_ids, attention_mask)
+        outputs = self(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            type_ids=type_ids,
+            output_hidden_states=False,
+            output_attentions=False,
+            return_dict=True,
+        )
+        return outputs.last_hidden_state
+
     def _convert_head_mask_to_5d(self, head_mask: torch.Tensor, num_hidden_layers: int) -> torch.Tensor:
         if head_mask.dim() == 1:
             head_mask = head_mask.unsqueeze(0).unsqueeze(0).unsqueeze(-1).unsqueeze(-1)
@@ -924,26 +945,6 @@ def get_head_mask(
             head_mask = head_mask.unsqueeze(-1)
         return head_mask
 
-    def get_input_embeddings(self) -> nn.Module:
-        return self.embeddings.word_embeddings
-
-    def set_input_embeddings(self, value):
-        self.embeddings.word_embeddings = value
-
-    def _embed(self, input_ids: torch.Tensor, attention_mask: Optional[torch.Tensor] = None) -> torch.Tensor:
-        if attention_mask is None:
-            attention_mask = input_ids.ne(self.config.pad_token_id)
-        type_ids = _infer_modality_type(input_ids, attention_mask)
-        outputs = self(
-            input_ids=input_ids,
-            attention_mask=attention_mask,
-            type_ids=type_ids,
-            output_hidden_states=False,
-            output_attentions=False,
-            return_dict=True,
-        )
-        return outputs.last_hidden_state
-
     def forward(
         self,
         input_ids: Optional[torch.Tensor] = None,
@@ -1039,21 +1040,86 @@ def forward(
             flex_block_mask=flex_block_mask,
         )
         sequence_output = encoder_outputs[0]
-        pooled_output = self.pooler(sequence_output) if self.pooler is not None else None
 
         if return_dict is False:
-            return (sequence_output, pooled_output) + encoder_outputs[1:]
+            return (sequence_output,) + encoder_outputs[1:]
 
         return BaseModelOutputWithPoolingAndCrossAttentions(
             last_hidden_state=sequence_output,
-            pooler_output=pooled_output,
             past_key_values=None,
             hidden_states=encoder_outputs.hidden_states,
             attentions=encoder_outputs.attentions,
             cross_attentions=encoder_outputs.cross_attentions,
         )
 
 
+class DPLM2Model(DPLM2PreTrainedModel, EmbeddingMixin):
+    config_class = DPLM2Config
+
+    def __init__(self, config, add_pooling_layer=True):
+        DPLM2PreTrainedModel.__init__(self, config)
+        self.config = config
+        self.esm = FAST_DPLM2_ENCODER(config)
+        self.pooler = EsmPooler(config) if add_pooling_layer else None
+        self.post_init()
+
+    def get_input_embeddings(self) -> nn.Module:
+        return self.esm.embeddings.word_embeddings
+
+    def set_input_embeddings(self, value):
+        self.esm.embeddings.word_embeddings = value
+
+    def _embed(self, input_ids: torch.Tensor, attention_mask: Optional[torch.Tensor] = None) -> torch.Tensor:
+        return self.esm._embed(input_ids, attention_mask)
+
+    def forward(
+        self,
+        input_ids: Optional[torch.Tensor] = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.Tensor] = None,
+        head_mask: Optional[torch.Tensor] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+        encoder_hidden_states: Optional[torch.Tensor] = None,
+        encoder_attention_mask: Optional[torch.Tensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+        type_ids: Optional[torch.Tensor] = None,
+    ) -> Union[Tuple[torch.Tensor], BaseModelOutputWithPoolingAndCrossAttentions]:
+        outputs = self.esm(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            head_mask=head_mask,
+            inputs_embeds=inputs_embeds,
+            encoder_hidden_states=encoder_hidden_states,
+            encoder_attention_mask=encoder_attention_mask,
+            past_key_values=past_key_values,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+            type_ids=type_ids,
+        )
+        sequence_output = outputs[0]
+        pooled_output = self.pooler(sequence_output) if self.pooler is not None else None
+
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        if return_dict is False:
+            return (sequence_output, pooled_output) + outputs[1:]
+
+        return BaseModelOutputWithPoolingAndCrossAttentions(
+            last_hidden_state=sequence_output,
+            pooler_output=pooled_output,
+            past_key_values=None,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+            cross_attentions=outputs.cross_attentions,
+        )
+
+
 class DPLM2ForMaskedLM(DPLM2PreTrainedModel, EmbeddingMixin):
     config_class = DPLM2Config
 
diff --git a/dplm_fastplms/modeling_dplm.py b/dplm_fastplms/modeling_dplm.py
@@ -797,46 +797,24 @@ def forward(
         )
 
 
-class DPLMModel(DPLMPreTrainedModel, EmbeddingMixin):
-    config_class = DPLMConfig
-
-    def get_input_embeddings(self) -> nn.Module:
-        return self.embeddings.word_embeddings
+class FAST_DPLM_ENCODER(DPLMPreTrainedModel, EmbeddingMixin):
+    """Inner encoder class that holds the actual ESM-style weights (embeddings, encoder,
+    contact_head) so that the weight keys are prefixed with 'esm.' in the outer DPLMModel,
+    matching pretrained DPLM checkpoints."""
 
-    def __init__(self, config, add_pooling_layer=True):
-        DPLMPreTrainedModel.__init__(self, config)
+    def __init__(self, config, **kwargs):
+        DPLMPreTrainedModel.__init__(self, config, **kwargs)
         self.config = config
         self.embeddings = EsmEmbeddings(config)
         self.encoder = ModifiedEsmEncoder(config)
-        self.pooler = EsmPooler(config) if add_pooling_layer else None
         self.contact_head = EsmContactPredictionHead(
             in_features=config.num_hidden_layers * config.num_attention_heads,
             bias=True,
         )
         self.post_init()
 
-    def _convert_head_mask_to_5d(self, head_mask: torch.Tensor, num_hidden_layers: int) -> torch.Tensor:
-        if head_mask.dim() == 1:
-            head_mask = head_mask.unsqueeze(0).unsqueeze(0).unsqueeze(-1).unsqueeze(-1)
-            head_mask = head_mask.expand(num_hidden_layers, -1, -1, -1, -1)
-        elif head_mask.dim() == 2:
-            head_mask = head_mask.unsqueeze(1).unsqueeze(-1).unsqueeze(-1)
-        assert head_mask.dim() == 5, f"head_mask.dim != 5, got {head_mask.dim()}"
-        head_mask = head_mask.to(dtype=self.dtype)
-        return head_mask
-
-    def get_head_mask(
-        self,
-        head_mask: Optional[torch.Tensor],
-        num_hidden_layers: int,
-        is_attention_chunked: bool = False,
-    ) -> Union[torch.Tensor, List[None]]:
-        if head_mask is None:
-            return [None] * num_hidden_layers
-        head_mask = self._convert_head_mask_to_5d(head_mask, num_hidden_layers)
-        if is_attention_chunked:
-            head_mask = head_mask.unsqueeze(-1)
-        return head_mask
+    def get_input_embeddings(self) -> nn.Module:
+        return self.embeddings.word_embeddings
 
     def set_input_embeddings(self, value):
         self.embeddings.word_embeddings = value
@@ -860,6 +838,29 @@ def predict_contacts(self, input_ids: torch.Tensor, attention_mask: torch.Tensor
         attns *= attention_mask.unsqueeze(1).unsqueeze(2).unsqueeze(4)
         return self.contact_head(input_ids, attns)
 
+    def _convert_head_mask_to_5d(self, head_mask: torch.Tensor, num_hidden_layers: int) -> torch.Tensor:
+        if head_mask.dim() == 1:
+            head_mask = head_mask.unsqueeze(0).unsqueeze(0).unsqueeze(-1).unsqueeze(-1)
+            head_mask = head_mask.expand(num_hidden_layers, -1, -1, -1, -1)
+        elif head_mask.dim() == 2:
+            head_mask = head_mask.unsqueeze(1).unsqueeze(-1).unsqueeze(-1)
+        assert head_mask.dim() == 5, f"head_mask.dim != 5, got {head_mask.dim()}"
+        head_mask = head_mask.to(dtype=self.dtype)
+        return head_mask
+
+    def get_head_mask(
+        self,
+        head_mask: Optional[torch.Tensor],
+        num_hidden_layers: int,
+        is_attention_chunked: bool = False,
+    ) -> Union[torch.Tensor, List[None]]:
+        if head_mask is None:
+            return [None] * num_hidden_layers
+        head_mask = self._convert_head_mask_to_5d(head_mask, num_hidden_layers)
+        if is_attention_chunked:
+            head_mask = head_mask.unsqueeze(-1)
+        return head_mask
+
     def forward(
         self,
         input_ids: Optional[torch.Tensor] = None,
@@ -953,21 +954,87 @@ def forward(
             flex_block_mask=flex_block_mask,
         )
         sequence_output = encoder_outputs[0]
-        pooled_output = self.pooler(sequence_output) if self.pooler is not None else None
 
         if return_dict is False:
-            return (sequence_output, pooled_output) + encoder_outputs[1:]
+            return (sequence_output,) + encoder_outputs[1:]
 
         return BaseModelOutputWithPoolingAndCrossAttentions(
             last_hidden_state=sequence_output,
-            pooler_output=pooled_output,
             past_key_values=None,
             hidden_states=encoder_outputs.hidden_states,
             attentions=encoder_outputs.attentions,
             cross_attentions=encoder_outputs.cross_attentions,
         )
 
 
+class DPLMModel(DPLMPreTrainedModel, EmbeddingMixin):
+    config_class = DPLMConfig
+
+    def __init__(self, config, add_pooling_layer=True):
+        DPLMPreTrainedModel.__init__(self, config)
+        self.config = config
+        self.esm = FAST_DPLM_ENCODER(config)
+        self.pooler = EsmPooler(config) if add_pooling_layer else None
+        self.post_init()
+
+    def get_input_embeddings(self) -> nn.Module:
+        return self.esm.embeddings.word_embeddings
+
+    def set_input_embeddings(self, value):
+        self.esm.embeddings.word_embeddings = value
+
+    def _embed(self, input_ids: torch.Tensor, attention_mask: Optional[torch.Tensor] = None) -> torch.Tensor:
+        return self.esm._embed(input_ids, attention_mask)
+
+    def predict_contacts(self, input_ids: torch.Tensor, attention_mask: torch.Tensor) -> torch.Tensor:
+        return self.esm.predict_contacts(input_ids, attention_mask)
+
+    def forward(
+        self,
+        input_ids: Optional[torch.Tensor] = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.Tensor] = None,
+        head_mask: Optional[torch.Tensor] = None,
+        inputs_embeds: Optional[torch.Tensor] = None,
+        encoder_hidden_states: Optional[torch.Tensor] = None,
+        encoder_attention_mask: Optional[torch.Tensor] = None,
+        past_key_values: Optional[List[torch.FloatTensor]] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+    ) -> Union[Tuple[torch.Tensor], BaseModelOutputWithPoolingAndCrossAttentions]:
+        outputs = self.esm(
+            input_ids=input_ids,
+            attention_mask=attention_mask,
+            position_ids=position_ids,
+            head_mask=head_mask,
+            inputs_embeds=inputs_embeds,
+            encoder_hidden_states=encoder_hidden_states,
+            encoder_attention_mask=encoder_attention_mask,
+            past_key_values=past_key_values,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+        )
+        sequence_output = outputs[0]
+        pooled_output = self.pooler(sequence_output) if self.pooler is not None else None
+
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        if return_dict is False:
+            return (sequence_output, pooled_output) + outputs[1:]
+
+        return BaseModelOutputWithPoolingAndCrossAttentions(
+            last_hidden_state=sequence_output,
+            pooler_output=pooled_output,
+            past_key_values=None,
+            hidden_states=outputs.hidden_states,
+            attentions=outputs.attentions,
+            cross_attentions=outputs.cross_attentions,
+        )
+
+
 class DPLMForMaskedLM(DPLMPreTrainedModel, EmbeddingMixin):
     config_class = DPLMConfig
 
@@ -994,7 +1061,7 @@ def __init__(self, config, dropout: float = 0.1):
         self.contact_head = None
 
     def get_input_embeddings(self) -> nn.Module:
-        return self.esm.embeddings.word_embeddings
+        return self.esm.get_input_embeddings()
 
     def get_output_embeddings(self):
         return self.lm_head.decoder
@@ -1064,7 +1131,7 @@ class DPLMForSequenceClassification(DPLMPreTrainedModel, EmbeddingMixin):
     config_class = DPLMConfig
 
     def get_input_embeddings(self) -> nn.Module:
-        return self.esm.embeddings.word_embeddings
+        return self.esm.get_input_embeddings()
 
     def __init__(self, config):
         DPLMPreTrainedModel.__init__(self, config)
@@ -1134,7 +1201,7 @@ class DPLMForTokenClassification(DPLMPreTrainedModel, EmbeddingMixin):
     config_class = DPLMConfig
 
     def get_input_embeddings(self) -> nn.Module:
-        return self.esm.embeddings.word_embeddings
+        return self.esm.get_input_embeddings()
 
     def __init__(self, config):
         DPLMPreTrainedModel.__init__(self, config)