diff --git a/cases/tools-to-text.md b/cases/tools-to-text.md new file mode 100644 index 0000000..0047c07 --- /dev/null +++ b/cases/tools-to-text.md @@ -0,0 +1,51 @@ +# Tools to text + +## Metadata + +* **Status:** In Progress +* **Type:** Specific/Generic - Generic use case, in a generic infrastructure, but with its' own specific representative use cases +* **Work Package**: WP6 +* **Research Coordinators:** Lotte Wilms (KB, until april 1, 2021) +* **Coordinators for CLARIAH:** Joris van Zundert (Huygens ING) +* **Participating Institutes:** KB, HuC (Huygens ING, HuC-DI) +* **End-users**: Joris van Zundert (sub use case 1) and NN (sub use case 2, nog onbekend) +* **Developers**: developers at Surf, KB and HuC-DI +* **Interest Groups**: TP, DO, WF +* **Task IDs**: + +## Description +(to be translated to English) + +Al langere tijd bestaat de wens bij onderzoekers en bij content-experts van de Koninklijke Bibliotheek (KB) om een digitale ontsluiting te realiseren voor text- en data-mining-gebaseerd onderzoek op digitale en gedigitaliseerde bronnen in de collecties van de KB zonder dat hiervoor de collectie hoeft te worden gekopieerd naar de gebruiker. In het kort is het idee dat een onderzoeker per API, per grafische interface of per “kerend algoritme” de tekstuele content van selecties van de collecties in het Digitaal Magazijn (DM) van de KB kan bevragen en als resultaat vocabulaire, woordfrequenties, “word embeddings” of het resultaat van het algoritme geleverd kan krijgen. + +Het doel van de use case is om de mogelijkheden van een dergelijke omgeving die gebruik maakt van KB-collecties te onderzoeken, met als een van de resultaten een proof of concept die inpasbaar is in CLAAS. + +### What is the research about? + +Two research cases are planned, one is already selected, the other case is still to be determined. The former case is about 'bringing' software that automatically finds and analyses correlations between word usage in bestsellers and high sales volumes in dutch literature 'to the data'. + +### What problem is hindering the research? + +Currently, with data-to-tools scenarios, there are at least three important problems for collection providers: + +1. data proliferation: many different versions of collection data exist at many places, without proper data about provenance. +2. rights issues: for substantial parts of digital collections there are restrictions on availability because of copyright. +3. the collection provider does not benefit from enrichments of collection data by external researchers. + +#### Data + +- born digital publications of the KB in different formats (in a.o. PDF and ePub format) +- parts of the DBNL collection (in TEI format) + +### What software and services are involved? + +Surf Data Exchange platform +https://www.surf.nl/data-exchange-vertrouwd-data-delen: +‘Data-aanbieders zoals bedrijven of academische ziekenhuizen willen hun data wel beschikbaar stellen voor onderzoek, maar willen zelf in de hand houden wie de data gebruikt en waarvoor. Ook moet voldaan worden aan wettelijke eisen op het gebied van persoonsgebonden gegevens. SURF heeft een prototype gebouwd van een platform waarop data kunnen worden gedeeld zonder de controle over of de vertrouwelijkheid van de data te verliezen.’ + +## References + +References to related resources and publications and especially links to related use-cases: + +* [CLARIAH](https://clariah.nl) +