Optimisation de la recherche Elasticsearch

Lettres, moteur de recherche
===

# Sommaire : 
[A. État courant de l'application](#A)
&nbsp; [I. Logique d'indexation et fonctionnement actuel de la recherche](#AI)
&ensp; [1. Filtres](#AI1)
&ensp; [2. Recherche plein texte](#AI2)
&ensp; [3. Combinaison de Filtres / Recherche plein texte](#AI3)
&ensp; [4. Notes importantes concernant la recherche](#AI4) (Mise à jour index, Recherche approximative, Pagination, Cache)
&nbsp; [II. Précisions liées au fonctionnement de l'application](#AII)
&ensp; [1. Gestion des droits](#AII1)
&ensp; [2. Quantification des Personnes, Lieux et Collections les plus présents dans un résultat de recherche](#AII2)

[B. Objet de l'issue : optimisation du moteur de recherche](#B)
&nbsp; [I. Évaluation de l'existant](#BI)
&ensp; 1. Réaliser un audit succinct de l'existant afin de : 
&ensp; 2. résoudre les points suivants (voir B.II.) et 
&ensp; 3. implémenter les solutions (ou assistance à l'implémentation en fonction du temps utile disponible)
&nbsp; [II. Points à traiter](#BII)
&ensp; 1.  Amélioration du temps de réponse
&ensp; 2. Prévoir le dépassement de 10K documents dans les résultats de recherche

---

# <a id='A'>A. État courant de l'application :</a>

Le moteur de recherche de l'application déployé dans l'application est basé sur **Elasticsearch, version "6.8.22"**.
Le moteur de recherche doit permettre de rechercher des documents.

## <a id='AI'>I. Logique d'indexation et fonctionnement actuel de la recherche :</a>
L'implémentation actuelle répond aux besoins suivants :

### <a id='AI1'>1. FILTRER les documents à partir de leurs métadonnées, plutôt qu’en fonction d’un motif de recherche plein texte :</a>
Le formulaire de recherche avancé, basé sur les *métadonnées* des documents, est accessible depuis la page `/search` de l'application ("Afficher les filtres").
#### Objectif : **Filtrer** et lister tous les documents correspondants aux critères de recherche sur la base de leurs métadonnées, par exemple : 
Lettres mentionnant une/des personne(s) **ET** un/des lieu(x) pour une période définie.

Les filtres sont actuellement définis par : 

- 1 formulaire de 4 critères éditables (filtres ci-dessous) et
- 1 calculé (périmètre d'accès aux documents limité selon le statut de connection des users)

<table align="center">
<tr>
    <th width="50%"> FILTRES</th>
   <th colspan=2> Illustrations</th>
</tr>
 <tr>
    <td width="50%">

- **Dates de temps** : un slider doit permettre de sélectionner l’intervalle entre 2 années. Cf modèle ENCPOS (slider + 2 inputs pour spécifier une date). Ce champs est inclus dans l'index _documents : `creation`.
- <a id="filtrePers">**Personnes**</a> : *Input* avec autocomplétion pour sélectionner 1 ou + personne(s), avec sélection possible de son(leurs) statut(s) : expéditeur, destinataire ou sujet. La sélection active est affichée sous la forme d’un tag-filtre activé.
Ces champs sont respectivement inclus dans l'index _documents : `senders`, `recipients`, `person-inlined`.
- <a id="filtreLieux">**Lieux**</a> : *Input* avec autocomplétion pour sélectionner 1 ou + lieu(x), avec sélection possible de son(leurs) statut(s) : lieu d’expédition, lieu de réception ou sujet. La sélection active est affichée sous la forme d’un tag-filtre activé.
Ces champs sont respectivement inclus dans l'index _documents : `location-date-from`, `location-date-to`, `location-inlined`.
- <a id="filtreColl">**Collections**</a> : **non inclus à l'index**. *Input* avec autocomplétion pour sélectionner une(des) collection(s) / sous-collection(s). La sélection active est affichée sous la forme d’un tag-filtre activé.
</td>
    <td width="25%">
<img src="https://github.com/chartes/lettres-vue/assets/92852428/ae4d8919-cc5d-457c-9a0b-2741c26065e4"/>
</td>
<td width="25%">
<img src="https://github.com/chartes/lettres-vue/assets/92852428/2e8274ed-bc98-40c3-ad4e-063336b6cbaa"/>
</td>
 </tr>
</table>

:warning: On ne prend PAS en charge l’opérateur 'OU' ; la combinatoire est difficile à appréhender avec autant de filtres. "Lister les lettres en lien avec Henri IV ET Catherine de Médicis" : la collection des lettres où il est question des 2 personnages (et non pas de l’un OU de l’autre).

**Exemples de requêtes :**

- Lister les lettres en lien avec `Henri IV`
- Lister les lettres en lien avec `Henri IV` ET `Catherine de Médicis`
- Lister les lettres datées (expédiées) entre `1562` et `1593`, en lien avec `Henri IV` ET `Catherine de Médicis` ET `Senlis` ET `Lille`


### <a id='AI2'>2. Effectuer une RECHERCHE PLEIN TEXTE :</a>

La recherche plein texte est accessible depuis une barre de recherche en tête de page (accessible depuis `/home` et `/search`).

Implémentée avec [Elasticsearch "Highlighting"](https://www.elastic.co/guide/en/elasticsearch/reference/current/highlighting.html) elle permet d'obtenir dans la réponse les concordances ("highlighted snippets") : <img src="https://github.com/chartes/lettres-vue/assets/92852428/a14a5e97-d451-4c03-87b9-3c1d1a586c0f" width="85%" height="85%" />
#### Objectif : lister tous les documents mentionnant une/des personne(s) **ET** un/des lieu(x) **ET <ins>contenant une expression</ins>**, pour une période définie.

<table align="center">
  <tr>
    <td rowspan="2" width="35%">
Input pour saisir une chaîne de caractères, recherchée dans :

- Transcription, inclus à l'index _documents `transcription`.
- Titre, inclus à l'index _documents `title`.
- Analyse, inclus à l'index _documents `argument`. 
    </td>
    <td width="65%" align="center">
<img src="https://github.com/chartes/lettres-vue/assets/92852428/327260ed-8796-4339-9fb4-8d7c4939f296" width="85%" height="85%" />
   </td>
  </tr>
  <tr>
    <td>
<img src="https://github.com/chartes/lettres-vue/assets/92852428/79fd3f0f-7dca-4ee4-baf7-d208d8f02781" width="80%" height="80%" />
    </td>
  </tr>
</table>

**Exemples de requêtes :**
- Lister les lettres dont la transcription contient le terme `réformés`
- Lister les lettres dont la transcription contient le terme `réformés`, en lien avec `Catherine de Médicis`
- Lister les lettres dont la transcription contient le terme `réformés`, entre `1572` et `1573`, en lien avec `Catherine de Médicis` ET `Gaspard de Coligny` ET `Paris` ET `Blois`


### <a id='AI3'>3. COMBINER Recherche Plein Texte et Filtres :</a>

<table align="center">
<tr>
    <th width="50%"> Recherche plein texte sur "eschevins" (169 résultats)</th>
   <th colspan=2> Plein texte ("eschevins") et Filtre personne = Catherine de Médicis (28 résultats)</th>
</tr>
 <tr>
    <td width="50%" align="center">
<img src="https://github.com/chartes/lettres-vue/assets/92852428/1d8552c8-d406-489b-bb8d-5ee154114823" width="100%" height="100%" />
    </td>
    <td width="50%" align="center">
<img src="https://github.com/chartes/lettres-vue/assets/92852428/1f0d223e-4f74-471b-8cf1-aa97cb648732" width="100%" height="100%" />
    </td>
</tr>
</table>

### <a id='AI4'>4. Notes importantes concernant la recherche :</a>
#### Mise à jour des index : 
Pour la configuration actuelle : voir lettres-app/elasticsearch/ [_settings.conf.json](https://github.com/chartes/lettres-app/blob/dev/elasticsearch/_settings.conf.json), [documents.conf.json](https://github.com/chartes/lettres-app/blob/dev/elasticsearch/documents.conf.json), [persons.conf.json](https://github.com/chartes/lettres-app/blob/dev/elasticsearch/persons.conf.json), [placenames.conf.json](https://github.com/chartes/lettres-app/blob/dev/elasticsearch/placenames.conf.json)
La mise à jour des index est gérée par [abstract_facade.py](https://github.com/chartes/lettres-app/blob/dev/app/api/abstract_facade.py) ou via le [cli.py](https://github.com/chartes/lettres-app/blob/dev/app/cli.py).
#### Recherche Plein Texte Approximative (date d'implémentation à déterminer) : 

- La recherche Plein Texte doit également permettre de faire varier l'exactitude du motif à rechercher.

#### Pagination : chaque recherche (et l'application de filtres) doit permettre d'obtenir deux types d'informations :
- d'une part, fournir aux utilisateurs le **total des résultats** et **les résultats de recherche paginés** comportant les métadonnées nécessaires à l'affichage (voir les **métadonnées des différentes vues** [au point suivant](#AI4d) et les **highlights** en cas de recherche plein texte (ex : "Bellièvre" ci-dessous) et voir également [A.I.2.](#AI2))
- d'autre part, **produire la liste des Personnes, Lieux, Collections liées à la recherche en cours (éventuellement filtrée) ainsi que leurs comptages** : les **filtres de sélection** de [Personnes](#filtrePers), [Lieux](#filtreLieux), [Collections](#filtreColl) ainsi que les [suggestions](#AII2) (ex : listes et effectifs des personnes associées à un résultat de recherche) **doivent être recalculés sur l'ensemble des résultats de chaque nouvelle recherche et l'application de filtres** (il ne s'agit pas de filtres portant uniquement sur les résultats paginés en cours d'affichage)
#### Utilisation du cache utilisateur dans le navigateur :
Lorsque l'on navigue d'une liste de résultats de recherche vers un document, on doit pouvoir retourner à la recherche en cours en reculant dans l'historique du navigateur.
#### <a id='AI4d'>Affichage des résultats en 2 vues :
Les résultats de la recherche peuvent être visualisés en mode "Tableau" ou "Déplié", ce qui induit de prédisposer de l'ensemble des métadonnées nécessaires à ces deux affichages : 

<table align="center">
 <tr>
<th width="50%">"Tableau" (Id, Date, Titre, Expéditeur, Destinataires)</th>
<th width="50%">"Déplié" (Id, Date, Titre, Expéditeur, Destinataires, Lieux d'Expédition et de Destination)</th>
</tr>
 <tr>
<td width="50%" align="center">
  <img src="https://github.com/chartes/lettres-vue/assets/92852428/084a0a9b-3e9d-4a3d-bd94-084a86d6c665" width="100%" height="100%" /> 
</td>
</td>
    <td width="50%" align="center">
<img src="https://github.com/chartes/lettres-vue/assets/92852428/8fe6fa02-5ed5-4c03-94b7-80be664a2442" width="100%" height="100%" /> 
</td>
 </tr>
</table>

## <a id='AII'>II. Précisions liées au fonctionnement de l'application :</a>

### <a id='AII1'>1. Gestion des droits :</a>

Le *périmètre de la recherche et donc ses résultats varie selon le statut de l'utilisateur* : les _users_ connectés recherchent parmi TOUTES les collections et TOUS les documents, les visiteurs non connectés n'accèdent qu'aux documents PUBLIES et les collections qui leurs sont associées.

### <a id='AII2'>2. Quantification des Personnes, Lieux et Collections les plus présents dans un résultat de recherche (date d'implémentation à déterminer):</a>

- En parallèle des résultats et de leur effectif, nous souhaitons produire des suggestions de recherche / rebonds. Par exemple présentation des 5 personnes et 5 lieux les plus associés aux documents dans l'ensemble des résultats d'une recherche :
<img src="https://github.com/chartes/lettres-vue/assets/92852428/3709980d-387a-4d54-954e-4beb22d543b0"/> 


# <a id='B'>B. Objet de l'issue : Optimisation du moteur de recherche</a>

:warning: La plupart des composants d'affichage des résultats sont implémentés, ils ne nécessiteront éventuellement que des évolutions marginales, concernant surtout la mise à disposition des données sous-jacentes.

## <a id='BI'>I. Évaluation de l'existant :</a>
### 1. **Réaliser un audit** succinct de l'existant afin de : 
### 2. **résoudre les points suivants** (voir II. ci-dessous) et 
### 3. **implémenter les solutions** (ou assistance à l'implémentation en fonction du temps utile disponible)

## <a id='BII'>II. Points à traiter :</a> 
### 1.  Amélioration du temps de réponse :
  Notamment le pré-chargement des filtres (*inputs* à autocomplétion), qui nécessite d'obtenir les _ensembles dédoublonnés des personnes, lieux, collections associées à la recherche en cours_ mais également leur décompte (ex: afficher les 5 personnes les plus fréquentes (et le comptage) pour une recherche donnée, voir [A.II.2](#AII2)) par : 
- [ ] soit une révision du modèle d'indexation ES : révisions des index et/ou des mappings (voir lettres-app/elasticsearch/ [_settings.conf.json](https://github.com/chartes/lettres-app/blob/dev/elasticsearch/_settings.conf.json), [documents.conf.json](https://github.com/chartes/lettres-app/blob/dev/elasticsearch/documents.conf.json), [persons.conf.json](https://github.com/chartes/lettres-app/blob/dev/elasticsearch/persons.conf.json), [placenames.conf.json](https://github.com/chartes/lettres-app/blob/dev/elasticsearch/placenames.conf.json) et s'agissant de la réindexation manuelle : le [cli.py](https://github.com/chartes/lettres-app/blob/dev/app/cli.py))
- [ ] et/ou optimiser les performances de la recherche `GroupBy` en apportant des modifications aux fichiers [search.py](https://github.com/chartes/lettres-app/blob/dev/app/api/search.py) et [route_registrar.py](https://github.com/chartes/lettres-app/blob/dev/app/api/route_registrar.py).
    Exemple de requête : [GET http://localhost:5004/lettres/api/1.0/search?query=(((collections.id:1)  OR (collections.id:2) ...) AND (Bellievre)) AND  (location-date-from.id:(15) AND senders.id:(1))&range[creation]=gte:1348,lt:1595&groupby[doc-type]=person&groupby[field]=senders.id&without-relationships]
   Cette requête illustre l'utilisation de `GroupBy` pour effectuer un regroupement par un identifiant 'expéditeur' dans les résultats d'une recherche plein texte filtrée.
- [ ] personnaliser les réponses d’ES en modifiant les fichiers [search.py](https://github.com/chartes/lettres-app/blob/dev/app/api/search.py) et [route_registrar.py](https://github.com/chartes/lettres-app/blob/dev/app/api/route_registrar.py). L'objectif est de fournir uniquement les données nécessaires à chaque composant, en évitant les informations superflues.
  
### 2.  Prévoir le dépassement de 10K documents dans les résultats de recherche : 
La base de donnée est destinée à couvrir plus de 10 000 documents, il conviendra d'implémenter l'API scroll d'ES ou équivalent (rappel ES version "6.8.22") pour pouvoir gérer de tels volumes.


Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Optimisation de la recherche Elasticsearch #95

Lettres, moteur de recherche

Sommaire :

A. État courant de l'application :

I. Logique d'indexation et fonctionnement actuel de la recherche :

1. FILTRER les documents à partir de leurs métadonnées, plutôt qu’en fonction d’un motif de recherche plein texte :

Objectif : Filtrer et lister tous les documents correspondants aux critères de recherche sur la base de leurs métadonnées, par exemple :

2. Effectuer une RECHERCHE PLEIN TEXTE :

Objectif : lister tous les documents mentionnant une/des personne(s) ET un/des lieu(x) ET contenant une expression, pour une période définie.

3. COMBINER Recherche Plein Texte et Filtres :

4. Notes importantes concernant la recherche :

Mise à jour des index :

Recherche Plein Texte Approximative (date d'implémentation à déterminer) :

Pagination : chaque recherche (et l'application de filtres) doit permettre d'obtenir deux types d'informations :

Utilisation du cache utilisateur dans le navigateur :

Affichage des résultats en 2 vues :

II. Précisions liées au fonctionnement de l'application :

1. Gestion des droits :

2. Quantification des Personnes, Lieux et Collections les plus présents dans un résultat de recherche (date d'implémentation à déterminer):

B. Objet de l'issue : Optimisation du moteur de recherche

I. Évaluation de l'existant :

1. Réaliser un audit succinct de l'existant afin de :

2. résoudre les points suivants (voir II. ci-dessous) et

3. implémenter les solutions (ou assistance à l'implémentation en fonction du temps utile disponible)

II. Points à traiter :

1. Amélioration du temps de réponse :

2. Prévoir le dépassement de 10K documents dans les résultats de recherche :

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Input pour saisir une chaîne de caractères, recherchée dans : Transcription, inclus à l'index _documents `transcription`. Titre, inclus à l'index _documents `title`. Analyse, inclus à l'index _documents `argument`.

Optimisation de la recherche Elasticsearch #95

Description

Lettres, moteur de recherche

Sommaire :

Objectif : Filtrer et lister tous les documents correspondants aux critères de recherche sur la base de leurs métadonnées, par exemple :

Objectif : lister tous les documents mentionnant une/des personne(s) ET un/des lieu(x) ET contenant une expression, pour une période définie.

Mise à jour des index :

Recherche Plein Texte Approximative (date d'implémentation à déterminer) :

Pagination : chaque recherche (et l'application de filtres) doit permettre d'obtenir deux types d'informations :

Utilisation du cache utilisateur dans le navigateur :

1. Réaliser un audit succinct de l'existant afin de :

2. résoudre les points suivants (voir II. ci-dessous) et

3. implémenter les solutions (ou assistance à l'implémentation en fonction du temps utile disponible)

1. Amélioration du temps de réponse :

2. Prévoir le dépassement de 10K documents dans les résultats de recherche :

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions