- Nécessite Python 3.10+
- Créer un nouvel environnement virtuel en Python
pip install -r requirements.txt- Lancer scrapper_cairn.py and scrapper_persee.py
- Besoins de récupérer automatiquement d'agréger les métadonnées de l'ensemble des articles de la Revue du Nord (environ 10 000 articles et recensions) pour faciliter l'état de l'art aux historiennes et historiens travaillant sur le Nord de la France
- Utilisation de 2 scripts de web scrapping pour les plateformes Persée (articles de 1910 à 2001) et Cairn (depuis 2001).
-
Le fichier CSV final fusionné se trouve dans le dépôt Nakala suivant : https://nakala.fr/10.34847/nkl.c1c8y2d7
- Fichier CSV regroupant l’ensemble des métadonnées des articles de la Revue du Nord, numérisés sur la plateforme Persée jusqu’en 2000, puis sur Cairn à partir de 2001.
-
N.B. :
- Ce tableur est le produit d’un script Python de web scraping visant à récupérer les métadonnées minimales nécessaires à l’identification des articles. Nous garantissons l’intégrité des données produites par ce processus, mais non la qualité des métadonnées telle qu’elle résulte de l’indexation initiale sur Persée et/ou Cairn. Ce fichier a pour seule vocation de fournir une aide à l’état de l’art pour les historien·ne·s s’intéressant à l’histoire du nord de la France, de l’Antiquité à nos jours. Ce fichier contient uniquement les métadonnées et ne traite nullement du texte des articles. Nous respectons donc pleinement la politique éditoriale de la Revue du Nord (voir https://revue-du-nord.univ-lille.fr/index.php/autorisatios-mise-en-ligne-hors-serie/)
- Structure du fichier CSV (colonnes) : titre, auteur, URL du numéro de la revue, titre du numéro (lorsqu’il a été possible de le récupérer par scraping), URL de l’article, date (année de publication), DOI (identifiant pérenne), pagination.
- Nous recommandons fortement l'usage des DOIs lorsqu'ils sont disponibles pour accéder aux articles.
- Lors de l’ouverture du fichier, veiller à indiquer le caractère " comme délimiteur de chaînes de caractères si celui-ci n’est pas détecté automatiquement par votre logiciel de tableur.