Etalab ne produit plus de données SIRENE géocodées https://files.data.gouv.fr/geo-sirene/decommissionnement.txt. Ils renvoient vers le dataset de géolocalisation de l'INSEE : https://www.data.gouv.fr/datasets/geolocalisation-des-etablissements-du-repertoire-sirene-pour-les-etudes-statistiques qui complète le dataset principal de la base SIRENE.
Cependant les données SIRENE géolocalisées de l'Insee soulèvement quelques questions :
- les données de géolocalisation sont publiées dans un dataset séparé des données SIRENE, et ce dataset n'est mis à jour que le 20 du mois (les données SIRENE sont màj le 1er)
- les données de géolocalisation de l'Insee s'appuient sur les adresses du RIL et non sur celles de la BAN, qui a pourtant fait ses preuves
- le logiciel de géocodage de l'Insee, Geoloc, n'est pas open source, donc difficile de savoir comme il fonctionne
Géoplateforme propose une API de géocodage (Swagger YAML).
Résultat, voici le process cible pour un géocodage mensuel des établissements :
Tous les mois (flow/sirene_preprocess)
Tous les jours (flow/decp_processing)
- Si
siret_latlong.parquet n'existe pas sur S3, télécharger decp.parquet depuis data.gouv.fr, le créer (extraction des paires SIRET/coordonnées existantes), puis le pousser sur S3
- Jointure des DECP avec
sirene_YYYY-MM.parquet (pour avoir les colonnes SIRENE et certaines coordonnées)
- Jointure avec
siret_latlong.parquet (pour avoir les coordonnées récupérées depuis le 1er du mois)
- Extraction des SIRET sans coordonnées
- Géocodage avec géoplateforme (pour les éventuels nouveaux établissements depuis la veille) (ça va dans
enrich.py)
- Màj de
siret_latlong.parquet avec les nouvelles coordonnées
Etalab ne produit plus de données SIRENE géocodées https://files.data.gouv.fr/geo-sirene/decommissionnement.txt. Ils renvoient vers le dataset de géolocalisation de l'INSEE : https://www.data.gouv.fr/datasets/geolocalisation-des-etablissements-du-repertoire-sirene-pour-les-etudes-statistiques qui complète le dataset principal de la base SIRENE.
Cependant les données SIRENE géolocalisées de l'Insee soulèvement quelques questions :
Géoplateforme propose une API de géocodage (Swagger YAML).
Résultat, voici le process cible pour un géocodage mensuel des établissements :
Tous les mois (flow/sirene_preprocess)
siret_latlong.parquetn'existe pas sur S3, télécharger decp.parquet depuis data.gouv.fr, le créer (extraction des paires SIRET/coordonnées existantes à partir des colonnes acheteur_id, titulaire_id et *_latitude et *_longitude) et le pousser sur S3siret_latlong.parquetsirene_YYYY-MM.parquetTous les jours (flow/decp_processing)
siret_latlong.parquetn'existe pas sur S3, télécharger decp.parquet depuis data.gouv.fr, le créer (extraction des paires SIRET/coordonnées existantes), puis le pousser sur S3sirene_YYYY-MM.parquet(pour avoir les colonnes SIRENE et certaines coordonnées)siret_latlong.parquet(pour avoir les coordonnées récupérées depuis le 1er du mois)enrich.py)siret_latlong.parquetavec les nouvelles coordonnées