Fix BindingDB live-data parser parity

cbizon · cbizon · commit 24e0187d93bf · 2026-04-02T11:50:48.000-04:00
diff --git a/orion/metadata_aggregation.py b/orion/metadata_aggregation.py
@@ -30,6 +30,10 @@ def _apply_reducer(
         row: dict[str, Any],
         item: Any,
     ) -> None:
+        when_spec = reducer_spec.get("when")
+        if when_spec is not None and not evaluate_transform(when_spec, row=row, item=item):
+            return
+
         reducer_op = reducer_spec["op"]
 
         if reducer_op == "collect_list":
diff --git a/orion/metadata_transforms.py b/orion/metadata_transforms.py
@@ -170,15 +170,23 @@ def evaluate_transform(
         if _is_missing(value):
             return None
         if isinstance(value, (int, float)):
-            return float(value)
-        normalized = str(value).strip().replace(",", "")
-        for operator in spec.get("reject_operators", []):
-            if normalized.startswith(operator):
-                return None
-        for operator in spec.get("strip_operators", ["<"]):
-            if normalized.startswith(operator):
-                normalized = normalized[len(operator):]
-        return float(normalized)
+            parsed_value = float(value)
+        else:
+            normalized = str(value).strip().replace(",", "")
+            for operator in spec.get("reject_operators", []):
+                if normalized.startswith(operator):
+                    return None
+            for operator in spec.get("strip_operators", ["<"]):
+                if normalized.startswith(operator):
+                    normalized = normalized[len(operator):]
+            parsed_value = float(normalized)
+        minimum_exclusive = spec.get("minimum_exclusive")
+        if minimum_exclusive is not None and parsed_value <= float(minimum_exclusive):
+            return None
+        minimum_inclusive = spec.get("minimum_inclusive")
+        if minimum_inclusive is not None and parsed_value < float(minimum_inclusive):
+            return None
+        return parsed_value
 
     if op == "aggregate_value":
         if aggregate is None:
diff --git a/parser_specs/BINDING-DB/parser.yaml b/parser_specs/BINDING-DB/parser.yaml
@@ -44,13 +44,7 @@ row_filters:
   - exists: chain1_swissprot_primary_id
 
 emit:
-  nodes:
-    - id:
-        op: field
-        name: ligand_id
-    - id:
-        op: field
-        name: protein_id
+  nodes: []
   edges: []
 
 aggregate:
@@ -76,20 +70,45 @@ aggregate:
           path: value
         reject_operators: [">"]
         strip_operators: ["<"]
+        minimum_exclusive: 0
     publications:
       op: collect_unique
+      when:
+        op: parse_qualified_float
+        value:
+          op: item
+          path: value
+        reject_operators: [">"]
+        strip_operators: ["<"]
+        minimum_exclusive: 0
       value:
         op: prefix_if_present
         field: pmid
         prefix: "PMID:"
     pubchem_assay_ids:
       op: collect_unique
+      when:
+        op: parse_qualified_float
+        value:
+          op: item
+          path: value
+        reject_operators: [">"]
+        strip_operators: ["<"]
+        minimum_exclusive: 0
       value:
         op: prefix_if_present
         field: pubchem_aid
         prefix: "PUBCHEM.AID:"
     patent_ids:
       op: collect_unique
+      when:
+        op: parse_qualified_float
+        value:
+          op: item
+          path: value
+        reject_operators: [">"]
+        strip_operators: ["<"]
+        minimum_exclusive: 0
       value:
         op: prefix_if_present
         field: patent_number
@@ -114,6 +133,13 @@ aggregate:
   filters:
     - non_empty: supporting_affinities_nm
   emit:
+    nodes:
+      - id:
+          op: group_key
+          index: 0
+      - id:
+          op: group_key
+          index: 1
     edges:
       - subject:
           op: group_key
diff --git a/parsers/BINDING/src/loadBINDINGDB.py b/parsers/BINDING/src/loadBINDINGDB.py
@@ -1,9 +1,11 @@
+import csv
 import os
 import enum
 import math
 import json
 import requests
 
+from io import TextIOWrapper
 from zipfile import ZipFile
 from requests.adapters import HTTPAdapter, Retry
 
@@ -32,11 +34,14 @@ class BD_EDGEUMAN(enum.IntEnum):
 def negative_log(concentration_nm): ### This function converts nanomolar concentrations into log-scale units (pKi/pKd/pIC50/pEC50). ###
     return -(math.log10(concentration_nm*(10**-9)))
 
-def generate_zipfile_rows(zip_file_path, file_inside_zip, delimiter='\\t'):
+def generate_zipfile_rows(zip_file_path, file_inside_zip, delimiter='\t'):
         with ZipFile(zip_file_path, 'r') as zip_file:
-            with zip_file.open(file_inside_zip, 'r') as file:
-                for line in file:
-                    yield str(line).split(delimiter)
+            with zip_file.open(file_inside_zip, 'r') as raw_file:
+                text_file = TextIOWrapper(raw_file, encoding='utf-8', newline='')
+                reader = csv.reader(text_file, delimiter=delimiter)
+                for row in reader:
+                    if row:
+                        yield row
 
 
 ##############
@@ -138,6 +143,8 @@ def parse_data(self) -> dict:
                     break
             if n%100000 == 0:
                 self.logger.debug(f'processed {n} rows so far...')
+            if len(row) <= BD_EDGEUMAN.UNIPROT_TARGET_CHAIN.value:
+                continue
             ligand = row[BD_EDGEUMAN.PUBCHEM_CID.value]
             protein = row[BD_EDGEUMAN.UNIPROT_TARGET_CHAIN.value]
             if (ligand == '') or (protein == ''): # Check if Pubchem or UniProt ID is missing.
diff --git a/tests/resources/metadata_parser/bindingdb/parser.yaml b/tests/resources/metadata_parser/bindingdb/parser.yaml
@@ -44,17 +44,7 @@ row_filters:
   - exists: chain1_swissprot_primary_id
 
 emit:
-  nodes:
-    - id:
-        op: field
-        name: ligand_id
-      categories:
-        - biolink:SmallMolecule
-    - id:
-        op: field
-        name: protein_id
-      categories:
-        - biolink:Protein
+  nodes: []
   edges: []
 
 aggregate:
@@ -78,20 +68,39 @@ aggregate:
         value:
           op: item
           path: value
+        minimum_exclusive: 0
     publications:
       op: collect_unique
+      when:
+        op: parse_qualified_float
+        value:
+          op: item
+          path: value
+        minimum_exclusive: 0
       value:
         op: prefix_if_present
         field: pmid
         prefix: "PMID:"
     pubchem_assay_ids:
       op: collect_unique
+      when:
+        op: parse_qualified_float
+        value:
+          op: item
+          path: value
+        minimum_exclusive: 0
       value:
         op: prefix_if_present
         field: pubchem_aid
         prefix: "PUBCHEM.AID:"
     patent_ids:
       op: collect_unique
+      when:
+        op: parse_qualified_float
+        value:
+          op: item
+          path: value
+        minimum_exclusive: 0
       value:
         op: prefix_if_present
         field: patent_number
@@ -107,6 +116,17 @@ aggregate:
         name: average_affinity_nm
       precision: 2
   emit:
+    nodes:
+      - id:
+          op: group_key
+          index: 0
+        categories:
+          - biolink:SmallMolecule
+      - id:
+          op: group_key
+          index: 1
+        categories:
+          - biolink:Protein
     edges:
       - subject:
           op: group_key
diff --git a/tests/test_metadata_driven_parser.py b/tests/test_metadata_driven_parser.py
@@ -63,9 +63,11 @@ def row(pubchem_cid, protein, ki="", ic50="", kd="", ec50="", pmid="", aid="", p
         header,
         row("111", "P11111", ki="100", pmid="12345", aid="7001", patent="PAT-1"),
         row("111", "P11111", ki="10", pmid="23456", aid="7002", patent="PAT-1"),
+        row("111", "P11111", ki="0", pmid="34567", aid="7003"),
         row("111", "P11111", ic50="200", pmid="12345", aid="7001"),
         row("222", "P22222", ec50="50", pmid="34567", aid="8001", patent="PAT-2"),
         row("", "P99999", ki="25", pmid="99999", aid="9999", patent="PAT-X"),
+        ["malformed", "row"],
     ]
 
     tsv_content = "\n".join("\t".join(row_values) for row_values in rows) + "\n"