Address AI review P2 findings: validate psu_period_factor and add DEFF regression test

igerber · claude · igerber · commit 0ea4ff2feea2 · 2026-04-03T17:14:12.000-04:00
Add input validation (finite, non-negative) for psu_period_factor.
Add behavioral regression test that verifies the tutorial scenario
produces survey SE &gt; naive SE and DEFF &gt; 1 for treat_x_post.
Add validation test for negative/NaN/inf inputs.

Co-Authored-By: Claude Opus 4.6 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/diff_diff/prep_dgp.py b/diff_diff/prep_dgp.py
@@ -1272,6 +1272,12 @@ def generate_survey_did_data(
                 f"(g >= 2 ensures at least one pre-treatment period)"
             )
 
+    if not np.isfinite(psu_period_factor) or psu_period_factor < 0:
+        raise ValueError(
+            f"psu_period_factor must be finite and non-negative, "
+            f"got {psu_period_factor}"
+        )
+
     valid_wv = ("none", "moderate", "high")
     if weight_variation not in valid_wv:
         raise ValueError(
diff --git a/tests/test_prep.py b/tests/test_prep.py
@@ -1442,3 +1442,65 @@ def test_psu_period_factor(self):
         # Same structure
         assert set(data_low.columns) == set(data_high.columns)
         assert len(data_low) == len(data_high)
+
+    def test_psu_period_factor_deff_regression(self):
+        """Verify psu_period_factor=1.0 gives DEFF > 1 for the tutorial scenario."""
+        import warnings
+
+        from diff_diff import (
+            CallawaySantAnna,
+            DifferenceInDifferences,
+            SurveyDesign,
+        )
+        from diff_diff.linalg import LinearRegression
+        from diff_diff.prep import generate_survey_did_data
+
+        warnings.filterwarnings("ignore")
+        df = generate_survey_did_data(
+            n_units=200, n_periods=8, cohort_periods=[3, 5],
+            never_treated_frac=0.3, treatment_effect=2.0,
+            n_strata=5, psu_per_stratum=8, fpc_per_stratum=200.0,
+            weight_variation="moderate", psu_re_sd=2.0,
+            psu_period_factor=1.0, seed=42,
+        )
+        sd = SurveyDesign(weights="weight", strata="stratum", psu="psu", fpc="fpc")
+
+        # 2x2 subset: survey SE must exceed naive SE
+        c3 = df[(df["first_treat"].isin([0, 3])) & (df["period"].isin([2, 3]))].copy()
+        c3["post"] = (c3["period"] == 3).astype(int)
+        c3["treat"] = (c3["first_treat"] == 3).astype(int)
+        did = DifferenceInDifferences()
+        r_naive = did.fit(c3, outcome="outcome", treatment="treat", time="post")
+        r_survey = did.fit(
+            c3, outcome="outcome", treatment="treat", time="post",
+            survey_design=sd,
+        )
+        assert r_survey.se > r_naive.se, (
+            f"Survey SE ({r_survey.se:.4f}) should exceed naive SE ({r_naive.se:.4f})"
+        )
+
+        # DEFF for treat_x_post must be > 1
+        c3["treat_x_post"] = c3["treat"] * c3["post"]
+        resolved = sd.resolve(c3)
+        reg = LinearRegression(include_intercept=True, survey_design=resolved)
+        reg.fit(X=c3[["treat", "post", "treat_x_post"]].values, y=c3["outcome"].values)
+        deff = reg.compute_deff(
+            coefficient_names=["intercept", "treat", "post", "treat_x_post"]
+        )
+        txp_deff = deff.deff[3]  # treat_x_post
+        assert txp_deff > 1.0, f"DEFF for treat_x_post ({txp_deff:.2f}) should be > 1"
+
+    def test_psu_period_factor_validation(self):
+        """Test that invalid psu_period_factor values raise ValueError."""
+        import math
+
+        import pytest
+
+        from diff_diff.prep import generate_survey_did_data
+
+        with pytest.raises(ValueError, match="psu_period_factor"):
+            generate_survey_did_data(psu_period_factor=-1.0, seed=42)
+        with pytest.raises(ValueError, match="psu_period_factor"):
+            generate_survey_did_data(psu_period_factor=math.nan, seed=42)
+        with pytest.raises(ValueError, match="psu_period_factor"):
+            generate_survey_did_data(psu_period_factor=math.inf, seed=42)