CocoRoF
diff --git a/‎ADVANCED_ANALYSIS_PLAN.md‎
Lines changed: 371 additions & 0 deletions b/‎ADVANCED_ANALYSIS_PLAN.md‎
Lines changed: 371 additions & 0 deletions
diff --git a/‎src/f2a/__init__.py‎ ‎f2a/__init__.py‎src/f2a/__init__.py renamed to f2a/__init__.py b/‎src/f2a/__init__.py‎ ‎f2a/__init__.py‎src/f2a/__init__.py renamed to f2a/__init__.py
diff --git a/‎src/f2a/_version.py‎ ‎f2a/_version.py‎src/f2a/_version.py renamed to f2a/_version.py b/‎src/f2a/_version.py‎ ‎f2a/_version.py‎src/f2a/_version.py renamed to f2a/_version.py
diff --git a/‎src/f2a/core/__init__.py‎ ‎f2a/core/__init__.py‎src/f2a/core/__init__.py renamed to f2a/core/__init__.py b/‎src/f2a/core/__init__.py‎ ‎f2a/core/__init__.py‎src/f2a/core/__init__.py renamed to f2a/core/__init__.py
diff --git a/‎src/f2a/core/analyzer.py‎ ‎f2a/core/analyzer.py‎src/f2a/core/analyzer.py renamed to f2a/core/analyzer.py
Lines changed: 424 additions & 4 deletions b/‎src/f2a/core/analyzer.py‎ ‎f2a/core/analyzer.py‎src/f2a/core/analyzer.py renamed to f2a/core/analyzer.py
Lines changed: 424 additions & 4 deletions
diff --git a/‎src/f2a/core/config.py‎ ‎f2a/core/config.py‎src/f2a/core/config.py renamed to f2a/core/config.py
Lines changed: 52 additions & 1 deletion b/‎src/f2a/core/config.py‎ ‎f2a/core/config.py‎src/f2a/core/config.py renamed to f2a/core/config.py
Lines changed: 52 additions & 1 deletion
diff --git a/‎src/f2a/core/loader.py‎ ‎f2a/core/loader.py‎src/f2a/core/loader.py renamed to f2a/core/loader.py b/‎src/f2a/core/loader.py‎ ‎f2a/core/loader.py‎src/f2a/core/loader.py renamed to f2a/core/loader.py
diff --git a/‎src/f2a/core/preprocessor.py‎ ‎f2a/core/preprocessor.py‎src/f2a/core/preprocessor.py renamed to f2a/core/preprocessor.py b/‎src/f2a/core/preprocessor.py‎ ‎f2a/core/preprocessor.py‎src/f2a/core/preprocessor.py renamed to f2a/core/preprocessor.py
diff --git a/‎src/f2a/core/schema.py‎ ‎f2a/core/schema.py‎src/f2a/core/schema.py renamed to f2a/core/schema.py
Lines changed: 6 additions & 1 deletion b/‎src/f2a/core/schema.py‎ ‎f2a/core/schema.py‎src/f2a/core/schema.py renamed to f2a/core/schema.py
Lines changed: 6 additions & 1 deletion
diff --git a/‎src/f2a/report/__init__.py‎ ‎f2a/report/__init__.py‎src/f2a/report/__init__.py renamed to f2a/report/__init__.py b/‎src/f2a/report/__init__.py‎ ‎f2a/report/__init__.py‎src/f2a/report/__init__.py renamed to f2a/report/__init__.py
@@ -67,6 +67,50 @@ class AnalysisConfig:
     max_plot_columns: int = 20
     """Maximum columns per plot grid (prevents overly large figures)."""
 
+    # ── Advanced analysis ─────────────────────────────────
+    advanced: bool = True
+    """Enable the Advanced analysis tab (clustering, anomaly, etc.)."""
+
+    advanced_distribution: bool = True
+    """Best-fit distribution, power transform, Jarque-Bera, ECDF."""
+
+    advanced_correlation: bool = True
+    """Partial correlation, MI matrix, bootstrap CI, network graph."""
+
+    clustering: bool = True
+    """K-Means, DBSCAN, hierarchical clustering."""
+
+    advanced_dimreduction: bool = True
+    """t-SNE, UMAP (optional), Factor Analysis."""
+
+    feature_insights: bool = True
+    """Interaction, monotonic, binning, cardinality, leakage detection."""
+
+    advanced_anomaly: bool = True
+    """Isolation Forest, LOF, Mahalanobis, consensus."""
+
+    statistical_tests: bool = True
+    """Levene, Kruskal-Wallis, Mann-Whitney, goodness-of-fit, Grubbs."""
+
+    data_profiling: bool = True
+    """Automated insights, type recommendation, health dashboard."""
+
+    # ── Advanced sub-options ──────────────────────────────
+    max_cluster_k: int = 10
+    """Maximum k for K-Means elbow search."""
+
+    tsne_perplexity: float = 30.0
+    """t-SNE perplexity parameter."""
+
+    bootstrap_iterations: int = 1000
+    """Number of bootstrap resamples for correlation CI."""
+
+    max_sample_for_advanced: int = 5000
+    """Max rows sampled for expensive advanced analyses (t-SNE, UMAP, etc.)."""
+
+    n_distribution_fits: int = 7
+    """Number of candidate distributions to fit."""
+
     @staticmethod
     def minimal() -> "AnalysisConfig":
         """Return a config with only core analyses (descriptive + missing)."""
@@ -80,12 +124,19 @@ def minimal() -> "AnalysisConfig":
             pca=False,
             duplicates=False,
             quality_score=False,
+            advanced=False,
         )
 
     @staticmethod
     def fast() -> "AnalysisConfig":
-        """Return a config that skips expensive analyses (PCA, feature importance)."""
+        """Return a config that skips expensive analyses (PCA, feature importance, advanced)."""
         return AnalysisConfig(
             pca=False,
             feature_importance=False,
+            advanced=False,
         )
+
+    @staticmethod
+    def basic_only() -> "AnalysisConfig":
+        """Return a config with all Basic analyses on, all Advanced off."""
+        return AnalysisConfig(advanced=False)
@@ -77,12 +77,17 @@ def infer_schema(df: pd.DataFrame) -> DataSchema:
 
     for col in df.columns:
         n_missing = int(df[col].isna().sum())
+        try:
+            n_unique = int(df[col].nunique())
+        except TypeError:
+            # Column contains unhashable types (e.g. numpy arrays, lists)
+            n_unique = len(df[col].dropna())
         columns.append(
             ColumnInfo(
                 name=col,
                 dtype=str(df[col].dtype),
                 inferred_type=type_map[col],
-                n_unique=int(df[col].nunique()),
+                n_unique=n_unique,
                 n_missing=n_missing,
                 missing_ratio=round(n_missing / len(df), 4) if len(df) > 0 else 0.0,
             )