Skip to content

Utiliser les données SIRENE de l'Insee mais le géocodage de géoplateforme #175

@ColinMaudry

Description

@ColinMaudry

Etalab ne produit plus de données SIRENE géocodées https://files.data.gouv.fr/geo-sirene/decommissionnement.txt. Ils renvoient vers le dataset de géolocalisation de l'INSEE : https://www.data.gouv.fr/datasets/geolocalisation-des-etablissements-du-repertoire-sirene-pour-les-etudes-statistiques qui complète le dataset principal de la base SIRENE.

Cependant les données SIRENE géolocalisées de l'Insee soulèvement quelques questions :

  • les données de géolocalisation sont publiées dans un dataset séparé des données SIRENE, et ce dataset n'est mis à jour que le 20 du mois (les données SIRENE sont màj le 1er)
  • les données de géolocalisation de l'Insee s'appuient sur les adresses du RIL et non sur celles de la BAN, qui a pourtant fait ses preuves
  • le logiciel de géocodage de l'Insee, Geoloc, n'est pas open source, donc difficile de savoir comme il fonctionne

Géoplateforme propose une API de géocodage (Swagger YAML).

Résultat, voici le process cible pour un géocodage mensuel des établissements :

Tous les mois (flow/sirene_preprocess)

  • 1. Téléchargement des données SIRENE officielles de l'Insee (~ 3 million de lignes)
  • 2. Si siret_latlong.parquet n'existe pas sur S3, télécharger decp.parquet depuis data.gouv.fr, le créer (extraction des paires SIRET/coordonnées existantes à partir des colonnes acheteur_id, titulaire_id et *_latitude et *_longitude) et le pousser sur S3
  • 3. Sélection des colonnes utiles et autres traitements (flow sirene_preprocess)
  • 4. Jointure avec siret_latlong.parquet
  • 5. Création de sirene_YYYY-MM.parquet

Tous les jours (flow/decp_processing)

  1. Si siret_latlong.parquet n'existe pas sur S3, télécharger decp.parquet depuis data.gouv.fr, le créer (extraction des paires SIRET/coordonnées existantes), puis le pousser sur S3
  2. Jointure des DECP avec sirene_YYYY-MM.parquet (pour avoir les colonnes SIRENE et certaines coordonnées)
  3. Jointure avec siret_latlong.parquet (pour avoir les coordonnées récupérées depuis le 1er du mois)
  4. Extraction des SIRET sans coordonnées
  5. Géocodage avec géoplateforme (pour les éventuels nouveaux établissements depuis la veille) (ça va dans enrich.py)
  6. Màj de siret_latlong.parquet avec les nouvelles coordonnées

Metadata

Metadata

Assignees

No one assigned

    Labels

    Projects

    Status

    Backlog

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions