[Port HIL_SERL] Final fixes for the Reward Classifier (#598)

2025-01-06 17:34:00 +07:00
parent e5801f467f
commit d1d6ffd23c
10 changed files with 7780 additions and 15 deletions
--- a/lerobot/common/policies/hilserl/classifier/modeling_classifier.py
+++ b/lerobot/common/policies/hilserl/classifier/modeling_classifier.py
@@ -4,7 +4,6 @@ from typing import Optional
 import torch
 from huggingface_hub import PyTorchModelHubMixin
 from torch import Tensor, nn
-from transformers import AutoImageProcessor, AutoModel

 from .configuration_classifier import ClassifierConfig

@@ -44,6 +43,8 @@ class Classifier(
    name = "classifier"

    def __init__(self, config: ClassifierConfig):
+        from transformers import AutoImageProcessor, AutoModel
+
        super().__init__()
        self.config = config
        self.processor = AutoImageProcessor.from_pretrained(self.config.model_name, trust_remote_code=True)
--- a/lerobot/common/policies/sac/modeling_sac.py
+++ b/lerobot/common/policies/sac/modeling_sac.py
@@ -333,7 +333,6 @@ class Critic(nn.Module):
        value = self.output_layer(x)
        return value.squeeze(-1)

-
 class Policy(nn.Module):
    def __init__(
        self,