Make scale benchmark provision users before fanout

Muhra95 · Muhra95 · commit 737c721add52 · 2026-03-25T08:52:29.000+01:00
diff --git a/harness/dim7_scale.py b/harness/dim7_scale.py
@@ -5,7 +5,7 @@
 import concurrent.futures
 
 from .config import BenchConfig
-from .sse_client import chat, get_metrics
+from .sse_client import chat, get_metrics, provision_user
 
 
 def _timed_chat(config: BenchConfig, message: str) -> dict:
@@ -122,23 +122,73 @@ def run(config: BenchConfig) -> dict:
         user_ids = [str(base_user_num + i) for i in range(concurrency)]
     except ValueError:
         user_ids = [f"{config.user_id}-bench-{i}" for i in range(concurrency)]
-    multi_cfgs = [config.clone_for_user(uid) for uid in user_ids]
-    multi_latencies, multi_errors, multi_wall_ms, multi_error_samples = _run_concurrency_scenario(
-        multi_cfgs,
-        "Multi-user concurrent request",
-    )
-    multi_stats = _latency_stats(multi_latencies)
-    results["multi_user"] = {
-        "requests": concurrency,
-        "errors": multi_errors,
-        "success": len(multi_latencies),
-        "wall_time_ms": round(multi_wall_ms, 1),
-        "p50_ms": multi_stats.get("p50_ms"),
-        "p95_ms": multi_stats.get("p95_ms"),
-        "p99_ms": multi_stats.get("p99_ms"),
-        "error_samples": multi_error_samples,
+    candidate_cfgs = [config.clone_for_user(uid) for uid in user_ids]
+
+    provisioned_cfgs: list[BenchConfig] = []
+    provisioned_users: list[str] = []
+    unavailable_users: list[str] = []
+    provisioning_error_samples: list[str] = []
+    for cfg in candidate_cfgs:
+        provision_result = provision_user(cfg)
+        if provision_result["ok"]:
+            provisioned_cfgs.append(cfg)
+            provisioned_users.append(cfg.user_id)
+            continue
+
+        reason = provision_result.get("reason") or "unknown"
+        if reason == "unknown_user_id":
+            unavailable_users.append(cfg.user_id)
+        elif len(provisioning_error_samples) < 3:
+            sample = (
+                f"user={cfg.user_id} status={provision_result.get('status_code')} "
+                f"reason={reason}"
+            )
+            if sample not in provisioning_error_samples:
+                provisioning_error_samples.append(sample)
+
+    results["multi_user_provisioning"] = {
+        "requested_users": concurrency,
+        "provisioned_users": len(provisioned_cfgs),
+        "provisioned_user_ids": provisioned_users[:5],
+        "unavailable_users": len(unavailable_users),
+        "unavailable_user_ids": unavailable_users[:5],
+        "error_samples": provisioning_error_samples,
     }
 
+    if len(provisioned_cfgs) >= 2:
+        multi_latencies, multi_errors, multi_wall_ms, multi_error_samples = _run_concurrency_scenario(
+            provisioned_cfgs,
+            "Multi-user concurrent request",
+        )
+        multi_stats = _latency_stats(multi_latencies)
+        results["multi_user"] = {
+            "requests": len(provisioned_cfgs),
+            "errors": multi_errors,
+            "success": len(multi_latencies),
+            "wall_time_ms": round(multi_wall_ms, 1),
+            "p50_ms": multi_stats.get("p50_ms"),
+            "p95_ms": multi_stats.get("p95_ms"),
+            "p99_ms": multi_stats.get("p99_ms"),
+            "error_samples": multi_error_samples,
+        }
+        identity_bootstrap_available = True
+    else:
+        results["multi_user"] = {
+            "requests": len(provisioned_cfgs),
+            "errors": 0,
+            "success": 0,
+            "wall_time_ms": 0.0,
+            "p50_ms": None,
+            "p95_ms": None,
+            "p99_ms": None,
+            "error_samples": [],
+        }
+        identity_bootstrap_available = False
+        results["note"] = (
+            "Multi-user scale measurement unavailable: benchmark users could not be "
+            "provisioned through /api/v1/users/provision on this runtime."
+        )
+
     same_p95 = results["same_session"].get("p95_ms")
     multi_p95 = results["multi_user"].get("p95_ms")
     if same_p95 and multi_p95 and multi_p95 > 0:
@@ -159,7 +209,22 @@ def run(config: BenchConfig) -> dict:
                     results["metrics_snapshot"][parts[0]] = parts[1]
 
     # Score calculation
-    multi_success_rate = len(multi_latencies) / concurrency if concurrency > 0 else 0
+    if not identity_bootstrap_available:
+        results["score"] = 0.0
+        results["verified_score"] = 0.0
+        results["projected_score"] = 0.0
+        results["measured_coverage"] = 0.0
+        return {
+            "dimension": "scale_cost",
+            "score": results["score"],
+            "verified_score": results["verified_score"],
+            "projected_score": results["projected_score"],
+            "measured_coverage": results["measured_coverage"],
+            "details": results,
+        }
+
+    multi_requests = results["multi_user"]["requests"]
+    multi_success_rate = len(multi_latencies) / multi_requests if multi_requests > 0 else 0
     multi_p95 = results["multi_user"].get("p95_ms") or 60000
 
     # Primary measured scale signal should use multi-user throughput, not same-session contention.
diff --git a/harness/sse_client.py b/harness/sse_client.py
@@ -168,3 +168,43 @@ def get_metrics(config: BenchConfig) -> str | None:
     except requests.RequestException:
         pass
     return None
+
+
+def provision_user(config: BenchConfig) -> dict:
+    """Attempt to provision the current benchmark user for tenant-aware runtimes."""
+    url = f"{config.base_url}/api/v1/users/provision"
+    try:
+        r = requests.post(
+            url,
+            headers=config.headers,
+            json={"user_id": config.user_id},
+            timeout=15,
+        )
+    except requests.RequestException as e:
+        return {
+            "ok": False,
+            "status_code": None,
+            "error": str(e),
+            "reason": "request_failed",
+        }
+
+    try:
+        payload = r.json()
+    except json.JSONDecodeError:
+        payload = {}
+
+    if r.status_code == 200:
+        return {
+            "ok": True,
+            "status_code": r.status_code,
+            "payload": payload,
+            "reason": "provisioned",
+        }
+
+    reason = payload.get("error") if isinstance(payload, dict) else None
+    return {
+        "ok": False,
+        "status_code": r.status_code,
+        "payload": payload,
+        "reason": reason or "http_error",
+    }
diff --git a/results/nullalis-scale-probe.json b/results/nullalis-scale-probe.json
@@ -0,0 +1,103 @@
+{
+  "benchmark_version": "0.2",
+  "runtime_name": "Nullalis scale probe",
+  "url": "http://127.0.0.1:3000",
+  "user_id": "1",
+  "date": "2026-03-25",
+  "artifact_type": "live_gateway_run",
+  "dimension_scores": {
+    "scale_cost": 76.2
+  },
+  "dimension_verified_scores": {
+    "scale_cost": 96.0
+  },
+  "dimension_projected_scores": {
+    "scale_cost": 76.2
+  },
+  "dimension_measured_coverage": {
+    "scale_cost": 0.2
+  },
+  "dimension_details": {
+    "scale_cost": {
+      "baseline_p50_ms": 3797.0,
+      "same_session": {
+        "requests": 20,
+        "errors": 0,
+        "success": 20,
+        "wall_time_ms": 40565.0,
+        "p50_ms": 11195.5,
+        "p95_ms": 40559.9,
+        "p99_ms": 40559.9,
+        "error_samples": []
+      },
+      "multi_user_provisioning": {
+        "requested_users": 20,
+        "provisioned_users": 2,
+        "provisioned_user_ids": [
+          "1",
+          "2"
+        ],
+        "unavailable_users": 18,
+        "unavailable_user_ids": [
+          "3",
+          "4",
+          "5",
+          "6",
+          "7"
+        ],
+        "error_samples": []
+      },
+      "multi_user": {
+        "requests": 2,
+        "errors": 0,
+        "success": 2,
+        "wall_time_ms": 3988.4,
+        "p50_ms": 3005.9,
+        "p95_ms": 3988.2,
+        "p99_ms": 3988.2,
+        "error_samples": []
+      },
+      "contention_ratio_same_session_over_multi_user": 10.17,
+      "metrics_snapshot": {
+        "nullalis_http_transport_native_total{subsystem=\"tools\"}": "0",
+        "nullalis_http_transport_native_total{subsystem=\"providers\"}": "0",
+        "nullalis_http_transport_native_total{subsystem=\"channels\"}": "0",
+        "nullalis_http_transport_native_total{subsystem=\"system\"}": "0",
+        "nullalis_http_transport_curl_total{subsystem=\"tools\"}": "0",
+        "nullalis_http_transport_curl_total{subsystem=\"providers\"}": "1688",
+        "nullalis_http_transport_curl_total{subsystem=\"channels\"}": "0",
+        "nullalis_http_transport_curl_total{subsystem=\"system\"}": "0",
+        "nullalis_http_transport_fallback_total{subsystem=\"tools\"}": "0",
+        "nullalis_http_transport_fallback_total{subsystem=\"providers\"}": "0",
+        "nullalis_http_transport_fallback_total{subsystem=\"channels\"}": "0",
+        "nullalis_http_transport_fallback_total{subsystem=\"system\"}": "0",
+        "nullalis_http_pool_hits_total": "0",
+        "nullalis_http_pool_misses_total": "0",
+        "nullalis_http_pool_idle_connections": "0"
+      },
+      "score": 76.2,
+      "verified_score": 96.0,
+      "projected_score": 76.2,
+      "measured_coverage": 0.2
+    }
+  },
+  "verified_composite_score": 96.0,
+  "projected_composite_score": 3.8,
+  "coverage_adjusted_verified_score": 1.0,
+  "measured_coverage": 0.01,
+  "composite_score": 3.8,
+  "rating": "Early Stage",
+  "elapsed_seconds": 59.0,
+  "runtime_timing": {
+    "dynamic_enabled": false,
+    "base_timeout_secs": 90,
+    "last_timeout_used_secs": null,
+    "timeout_floor_secs": 90,
+    "timeout_ceiling_secs": 3600,
+    "timeout_multiplier": 4.0,
+    "timeout_grace_secs": 30,
+    "latency_ewma_ms": 0.0,
+    "latency_samples": 0
+  },
+  "method": "Direct harness run against live gateway using SSE stream endpoint; per-chat timeout policy described in runtime_timing."
+}