fix: restrict developer role to responses (stanfordnlp#8727)

TomeHirata · web-flow · commit c1c27b4e592d · 2025-09-01T14:09:29.000+09:00
diff --git a/dspy/clients/lm.py b/dspy/clients/lm.py
@@ -40,6 +40,7 @@ def __init__(
         finetuning_model: str | None = None,
         launch_kwargs: dict[str, Any] | None = None,
         train_kwargs: dict[str, Any] | None = None,
+        use_developer_role: bool = False,
         **kwargs,
     ):
         """
@@ -77,6 +78,7 @@ def __init__(
         self.finetuning_model = finetuning_model
         self.launch_kwargs = launch_kwargs or {}
         self.train_kwargs = train_kwargs or {}
+        self.use_developer_role = use_developer_role
         self._warned_zero_temp_rollout = False
 
         # Handle model-specific configuration for different model families
@@ -131,6 +133,11 @@ def forward(self, prompt=None, messages=None, **kwargs):
         cache = kwargs.pop("cache", self.cache)
 
         messages = messages or [{"role": "user", "content": prompt}]
+        if self.use_developer_role and self.model_type == "responses":
+            messages = [
+                {**m, "role": "developer"} if m.get("role") == "system" else m
+                for m in messages
+            ]
         kwargs = {**self.kwargs, **kwargs}
         self._warn_zero_temp_rollout(kwargs.get("temperature"), kwargs.get("rollout_id"))
         if kwargs.get("rollout_id") is None:
@@ -162,6 +169,11 @@ async def aforward(self, prompt=None, messages=None, **kwargs):
         cache = kwargs.pop("cache", self.cache)
 
         messages = messages or [{"role": "user", "content": prompt}]
+        if self.use_developer_role and self.model_type == "responses":
+            messages = [
+                {**m, "role": "developer"} if m.get("role") == "system" else m
+                for m in messages
+            ]
         kwargs = {**self.kwargs, **kwargs}
         self._warn_zero_temp_rollout(kwargs.get("temperature"), kwargs.get("rollout_id"))
         if kwargs.get("rollout_id") is None:
diff --git a/tests/clients/test_lm.py b/tests/clients/test_lm.py
@@ -506,6 +506,23 @@ def test_responses_api(litellm_test_server):
         assert dspy_responses.call_args.kwargs["model"] == "openai/dspy-test-model"
 
 
+def test_lm_replaces_system_with_developer_role():
+    with mock.patch(
+        "dspy.clients.lm.litellm_responses_completion", return_value={"choices": []}
+    ) as mock_completion:
+        lm = dspy.LM(
+            "openai/gpt-4o-mini",
+            cache=False,
+            model_type="responses",
+            use_developer_role=True,
+        )
+        lm.forward(messages=[{"role": "system", "content": "hi"}])
+        assert (
+            mock_completion.call_args.kwargs["request"]["messages"][0]["role"]
+            == "developer"
+        )
+
+
 def test_responses_api_tool_calls(litellm_test_server):
     api_base, _ = litellm_test_server
     expected_tool_call = {