lightseekorg · smfirmin · Apr 8, 2026 · Apr 8, 2026
@@ -350,6 +350,7 @@ jobs:
           - { id: meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8, slug: meta-llama-Llama-4-Maverick-17B-128E-Instruct-FP8, test_class: TestNightlyLlama4MaverickSingle }
           # Pausing MiniMax M2 nightly benchmark
           # - { id: minimaxai/minimax-m2, slug: minimaxai-minimax-m2, test_class: TestNightlyMinimaxM2Single }
+          - {id: mistralai/Devstral-2-123B-Instruct-2512, slug: mistralai-Devstral-2-123B-Instruct-2512, test_class: TestNightlyDevstral2Single}
         variant:
           - { id: sglang, runtime: sglang, grpc_only: "false", setup_vllm: false, setup_trtllm: false, extra_deps: "genai-bench" }
           - { id: vllm,   runtime: vllm,   grpc_only: "false", setup_vllm: true, setup_trtllm: false, extra_deps: "genai-bench" }

@@ -102,6 +102,13 @@ def _run_nightly(setup_backend, genai_bench_runner, model_id, worker_count=1, **
     ("Qwen/Qwen3-30B-A3B", "Qwen30b", 4, ["http", "grpc"], {}),
     ("openai/gpt-oss-20b", "GptOss20b", 1, ["http", "grpc"], {}),
     ("minimaxai/minimax-m2", "MinimaxM2", 1, ["http", "grpc"], {}),
+    (
+        "mistralai/Devstral-2-123B-Instruct-2512",
+        "Devstral2",
+        1,
+        ["http", "grpc"],
+        {},
+    ),
     (
         "meta-llama/Llama-4-Maverick-17B-128E-Instruct-FP8",
         "Llama4Maverick",
@@ -132,6 +139,10 @@ def _run_nightly(setup_backend, genai_bench_runner, model_id, worker_count=1, **
     ),
 ]
 
+_SINGLE_ONLY_NIGHTLY_MODELS = {
+    "mistralai/Devstral-2-123B-Instruct-2512",
+}
+
 
 # ---------------------------------------------------------------------------
 # Dynamic test class generation
@@ -163,7 +174,10 @@ def test_nightly_perf(self, setup_backend, genai_bench_runner):
 
 
 for _model_id, _name, _multi_workers, _backends, _extra in _NIGHTLY_MODELS:
-    for _suffix, _count in [("Single", 1), ("Multi", _multi_workers)]:
+    _variants = [("Single", 1)]
+    if _model_id not in _SINGLE_ONLY_NIGHTLY_MODELS:
+        _variants.append(("Multi", _multi_workers))
+    for _suffix, _count in _variants:
         _cls_name = f"TestNightly{_name}{_suffix}"
         _cls = _make_test_class(_model_id, _count, _backends, _extra)
         _cls.__name__ = _cls_name

@@ -114,6 +114,15 @@ def _resolve_model_path(hf_path: str) -> str:
         "sglang_args": ["--trust-remote-code"],
         "vllm_args": ["--trust-remote-code"],
     },
+    # Devstral 2 123B - Nightly benchmarks
+    "mistralai/Devstral-2-123B-Instruct-2512": {
+        "model": _resolve_model_path("mistralai/Devstral-2-123B-Instruct-2512"),
+        "tp": 4,
+        "features": ["chat", "streaming", "function_calling", "reasoning"],
+        "startup_timeout": 1200,
+        "sglang_args": ["--trust-remote-code"],
+        "vllm_args": ["--trust-remote-code"],
+    },
     # Vision-language model for multimodal benchmarks (MMMU)
     "Qwen/Qwen3-VL-8B-Instruct": {
         "model": _resolve_model_path("Qwen/Qwen3-VL-8B-Instruct"),