From fd39071353fc07dd7643500df5bcd22e349253db Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Mon, 23 Sep 2024 13:24:16 -0400
Subject: [PATCH 01/38] adding logs to debug manifest

---
 dev-requirements.txt                       |  1 -
 scan_explorer_service/manifest_factory.py  | 13 +++-
 scan_explorer_service/models.py            |  8 ++-
 scan_explorer_service/utils/db_utils.py    |  5 ++
 scan_explorer_service/utils/s3_utils.py    |  2 +-
 scan_explorer_service/views/image_proxy.py | 78 +++++++++++-----------
 scan_explorer_service/views/manifest.py    | 11 ++-
 7 files changed, 72 insertions(+), 46 deletions(-)

diff --git a/dev-requirements.txt b/dev-requirements.txt
index 6176c71..eac0dd2 100644
--- a/dev-requirements.txt
+++ b/dev-requirements.txt
@@ -3,4 +3,3 @@ coverage==5.2.1
 testing.postgresql==1.3.0
 pytest==7.1.2
 pytest-cov==3.0.0
-boto3==1.34.75
\ No newline at end of file
diff --git a/scan_explorer_service/manifest_factory.py b/scan_explorer_service/manifest_factory.py
index 2f76eb1..73f6397 100644
--- a/scan_explorer_service/manifest_factory.py
+++ b/scan_explorer_service/manifest_factory.py
@@ -3,6 +3,7 @@
 from scan_explorer_service.models import Article, Page, Collection
 from typing import Union
 from itertools import chain
+from flask import current_app
 
 class ManifestFactoryExtended(ManifestFactory):
     """ Extended manifest factory.
@@ -14,16 +15,22 @@ class ManifestFactoryExtended(ManifestFactory):
     def create_manifest(self, item: Union[Article, Collection]):
         manifest = self.manifest(
             ident=f'{item.id}/manifest.json', label=item.id)
+        
         manifest.description = item.id
         manifest.add_sequence(self.create_sequence(item))
+        
         for range in self.create_range(item):
             manifest.add_range(range)
+
+        current_app.logger.debug(f"Created manifest {manifest}")
         return manifest
 
     def create_sequence(self, item: Union[Article, Collection]):
         sequence: Sequence = self.sequence()
         for page in item.pages:
             sequence.add_canvas(self.get_or_create_canvas(page)) 
+
+        current_app.logger.debug(f"Sequence {sequence}")
         return sequence
 
     def create_range(self, item: Union[Article, Collection]):
@@ -33,11 +40,14 @@ def create_range(self, item: Union[Article, Collection]):
         range: Range = self.range(ident=item.bibcode, label=item.bibcode)
         for page in item.pages:
             range.add_canvas(self.get_or_create_canvas(page))
+
+        current_app.logger.debug(f"Range {[range]}")
         return [range]
 
     def get_canvas_dict(self) -> Dict[str, Canvas]:
         if not hasattr(self, 'canvas_dict'):
             self.canvas_dict = {}
+        current_app.logger.debug(f"Canvas dict {self.canvas_dict}")
         return self.canvas_dict
 
     def get_or_create_canvas(self, page: Page):
@@ -58,7 +68,7 @@ def get_or_create_canvas(self, page: Page):
         annotation.on = canvas.id
         canvas.add_annotation(annotation)
         canvas_dict[page.id] = canvas
-
+        current_app.logger.debug(f"Canvas {canvas}")
         return canvas
 
     def create_image_annotation(self, page: Page):
@@ -72,6 +82,7 @@ def create_image_annotation(self, page: Page):
         image.format = page.format
         image.height = page.height
         image.width = page.width
+        current_app.logger.debug(f"Annotation {annotation}")
         return annotation
 
     def add_search_service(self, manifest: Manifest, search_url: str):
diff --git a/scan_explorer_service/models.py b/scan_explorer_service/models.py
index 72a16d9..513e9e1 100644
--- a/scan_explorer_service/models.py
+++ b/scan_explorer_service/models.py
@@ -151,6 +151,7 @@ def __init__(self, **kwargs):
     @property
     def image_url(self):
         image_api_url = url_for_proxy('proxy.image_proxy', path=self.image_path)
+        current_app.logger.debug(f'image api url: {image_api_url}')
         return image_api_url
 
     @property
@@ -159,6 +160,7 @@ def image_path(self):
         image_path = separator.join(self.image_path_basic) 
         if self.color_type != PageColor.BW:
             image_path += '.tif'
+        current_app.logger.debug(f'image path: {image_path}')
         return image_path 
     
     @property
@@ -166,12 +168,14 @@ def image_path_basic(self):
         image_path = [self.collection.type, self.collection.journal, self.collection.volume]
         image_path = [item.replace('.', '_') for item in image_path]
         image_path = ['bitmaps'] + image_path + ['600', self.name]
-        
+        current_app.logger.debug(f'image path basic: {image_path}')
         return image_path 
 
     @property
     def thumbnail_url(self):
-        return f'{self.image_url}/square/480,480/0/{self.image_color_quality}.jpg'
+        url = f'{self.image_url}/square/480,480/0/{self.image_color_quality}.jpg'
+        current_app.logger.debug('thumbnail url: ' + url)
+        return url
 
     @property
     def image_color_quality(self):
diff --git a/scan_explorer_service/utils/db_utils.py b/scan_explorer_service/utils/db_utils.py
index 4894d34..42c78e4 100644
--- a/scan_explorer_service/utils/db_utils.py
+++ b/scan_explorer_service/utils/db_utils.py
@@ -1,5 +1,6 @@
 from sqlalchemy import or_
 from scan_explorer_service.models import Article, Collection, Page
+from flask import current_app
 
 
 def collection_exists(session, journal, volume):
@@ -79,18 +80,22 @@ def page_overwrite(session, page):
 def article_thumbnail(session, id):
     page = session.query(Page).join(Article, Page.articles).filter(
                 Article.id == id).order_by(Page.volume_running_page_num.asc()).first()
+    current_app.logger.debug(f'article thumbnail {page}')
     return page.thumbnail_url
 
 def collection_thumbnail(session, id):
     page = session.query(Page).filter(Page.collection_id == id).order_by(
         Page.volume_running_page_num.asc()).first()
+    current_app.logger.debug(f'collection thumbnail {page.thumbnail_url}')
     return page.thumbnail_url
 
 def page_thumbnail(session, id):
     page = session.query(Page).filter(Page.id == id).one()
+    current_app.logger.debug(f'page thumbnail {page.thumbnail_url}')
     return page.thumbnail_url
 
 def item_thumbnail(session, id, type):
+    current_app.logger.debug(f'Getting item thumbnail: id {id} type {type}')
     if type == 'page':
         return page_thumbnail(session, id)
     elif type == 'article':
diff --git a/scan_explorer_service/utils/s3_utils.py b/scan_explorer_service/utils/s3_utils.py
index c8c56a6..2cffd65 100644
--- a/scan_explorer_service/utils/s3_utils.py
+++ b/scan_explorer_service/utils/s3_utils.py
@@ -36,7 +36,7 @@ def read_object_s3(self, object_name):
                 s3_file = s3_obj.read()
                 return s3_file
         except (ClientError, ParamValidationError) as e:
-            current_app.logger.info.exception(e)
+            current_app.logger.exception(e)
             raise e
 
 
diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index 3c950cc..2627237 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -9,7 +9,6 @@
 from scan_explorer_service.utils.db_utils import item_thumbnail
 from scan_explorer_service.utils.s3_utils import S3Provider
 from scan_explorer_service.utils.utils import url_for_proxy
-import io, cProfile, pstats 
 
 bp_proxy = Blueprint('proxy', __name__, url_prefix='/image')
 
@@ -23,14 +22,12 @@ def image_proxy(path):
 
     req_headers['X-Forwarded-Host'] = current_app.config.get('PROXY_SERVER')
     req_headers['X-Forwarded-Path'] = current_app.config.get('PROXY_PREFIX').rstrip('/') + '/image'
-    request_method = request.method
-    
-
-    current_app.logger.info(f'Request method: {request_method}')
 
-    r = requests.request(request_method, req_url, params=request.args, stream=True,
+    current_app.logger.debug(f'req_url:{req_url}')
+    r = requests.request(request.method, req_url, params=request.args, stream=True,
                          headers=req_headers, allow_redirects=False, data=request.form)
-
+    current_app.logger.debug(f'Image proxy response: {r.json()}')
+    
     excluded_headers = ['content-encoding','content-length', 'transfer-encoding', 'connection']
     headers = [(name, value) for (name, value) in r.headers.items() if name.lower() not in excluded_headers]
 
@@ -47,17 +44,27 @@ def image_proxy_thumbnail():
     """Helper to generate the correct url for a thumbnail given an ID and type"""
     try:
         id = request.args.get('id')
+        current_app.logger.debug(f'id {id}')
         type = request.args.get('type')
+        current_app.logger.debug(f'type {type}')
+
         with current_app.session_scope() as session:
             thumbnail_path = item_thumbnail(session, id, type)
+            
+            current_app.logger.debug(f'thumbnail path {thumbnail_path}')
+            
             path = urlparse.urlparse(thumbnail_path).path
+            current_app.logger.debug(f'path {path}')
             
             remove = urlparse.urlparse(url_for_proxy('proxy.image_proxy', path='')).path
+            current_app.logger.debug(f'remove {remove}')
+            
             path = path.replace(remove, '')
+            current_app.logger.debug(f'replace {path}')
             
             return image_proxy(path)
     except Exception as e:
-        current_app.logger.info(f'{e}')
+        current_app.logger.exception(f'{e}')
         return jsonify(Message=str(e)), 400
     
 def get_item(session, id): 
@@ -86,46 +93,37 @@ def get_pages(item, session, page_start, page_end, page_limit):
 
 @stream_with_context
 def fetch_images(session, item, page_start, page_end, page_limit, memory_limit):
-        n_pages = 0
-        memory_sum = 0
-        query = get_pages(item, session, page_start, page_end, page_limit)
-        for page in query.all():
-            
-            n_pages += 1
-            
-            current_app.logger.info(f"Generating image for page: {n_pages}") 
-            current_app.logger.info(f'Id: {page.id}, Volume_page: {page.volume_running_page_num}, memory: {memory_sum}')
-            if n_pages > page_limit:
-                break
-            if memory_sum > memory_limit:
-                current_app.logger.error(f"Memory limit reached: {memory_sum} > {memory_limit}") 
-                break
-            
-            current_app.logger.info(f"Getting image for page: {n_pages}") 
-            current_app.logger.info(f'Id: {page.id}, Volume_page: {page.volume_running_page_num}, memory: {memory_sum}')
-            if n_pages > page_limit:
-                break
-            if memory_sum > memory_limit:
-                current_app.logger.error(f"Memory limit reached: {memory_sum} > {memory_limit}") 
-                break
-         
-            object_name = '/'.join(page.image_path_basic)
-            current_app.logger.info(f"Image path: {object_name}")
-            im_data = fetch_object(object_name, 'AWS_BUCKET_NAME_IMAGE')
-            current_app.logger.info(f"File content: {im_data}")
-
-            yield im_data
+    n_pages = 0
+    memory_sum = 0
+    query = get_pages(item, session, page_start, page_end, page_limit)
+    for page in query.all():
+        
+        n_pages += 1
+        
+        current_app.logger.debug(f"Generating image for page: {n_pages}") 
+        current_app.logger.debug(f'Id: {page.id}, Volume_page: {page.volume_running_page_num}, memory: {memory_sum}')
+        if n_pages > page_limit:
+            break
+        if memory_sum > memory_limit:
+            current_app.logger.error(f"Memory limit reached: {memory_sum} > {memory_limit}") 
+            break
+        
+        object_name = '/'.join(page.image_path_basic)
+        current_app.logger.debug(f"Image path: {object_name}")
+        im_data = fetch_object(object_name, 'AWS_BUCKET_NAME_IMAGE')
+
+        yield im_data
 
 
 def fetch_object(object_name, bucket_name):
     file_content = S3Provider(current_app.config, bucket_name).read_object_s3(object_name)
-    current_app.logger.info(f"Successfully fetched object from S3 bucket: {object_name}")
+    current_app.logger.debug(f"Successfully fetched object from S3 bucket: {object_name}")
     return file_content
 
 
 def fetch_article(item):
     try:
-        current_app.logger.info(f"Item is an article: {item.id}")
+        current_app.logger.debug(f"Item is an article: {item.id}")
         object_name = f'{item.id}.pdf'.lower()
         full_path = f'pdfs/{object_name}'
         file_content = fetch_object(full_path, 'AWS_BUCKET_NAME_PDF')
@@ -133,7 +131,7 @@ def fetch_article(item):
         response.headers['Content-Disposition'] = f'attachment; filename="{object_name}"'
         return response
     except Exception as e:
-        current_app.logger.info(f"Failed to get PDF using fallback method for {object_name}: {str(e)}")
+        current_app.logger.exception(f"Failed to get PDF using fallback method for {object_name}: {str(e)}")
         
        
 def generate_pdf(item, session, page_start, page_end, page_limit, memory_limit): 
diff --git a/scan_explorer_service/views/manifest.py b/scan_explorer_service/views/manifest.py
index adfe0fe..05152d7 100644
--- a/scan_explorer_service/views/manifest.py
+++ b/scan_explorer_service/views/manifest.py
@@ -18,6 +18,7 @@ def before_request():
     manifest_factory.set_base_prezi_uri(base_uri)
 
     image_proxy = url_for_proxy('proxy.image_proxy', path='')
+    current_app.logger.debug(f'image proxy {image_proxy}')
     manifest_factory.set_base_image_uri(image_proxy)
 
 
@@ -26,18 +27,26 @@ def before_request():
 def get_manifest(id: str):
     """ Creates an IIIF manifest from an article or Collection"""
 
+    current_app.logger.debug(f'id for manifest {id}')
     with current_app.session_scope() as session:
         item: Union[Article, Collection] = (
             session.query(Article).filter(Article.id == id).one_or_none()
             or session.query(Collection).filter(Collection.id == id).one_or_none())
 
         if item:
+            current_app.logger.debug(f'Item found for {id}. Creating manifest.')
             manifest = manifest_factory.create_manifest(item)
+
+            current_app.logger.debug(f'Manifest {manifest}')
+
             search_url = url_for_proxy('manifest.search', id=id)
-            manifest_factory.add_search_service(manifest, search_url)
+            current_app.logger.debug(f'Search url {search_url}')
 
+            manifest_factory.add_search_service(manifest, search_url)
+            
             return manifest.toJSON(top=True)
         else:
+            current_app.logger.debug(f'Manifest not found for {id}')
             return jsonify(exception='Article not found'), 404
 
 

From e369d3b536399d48722c8b4aace1879a3fcfeac1 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Mon, 23 Sep 2024 13:44:39 -0400
Subject: [PATCH 02/38] adding logs to debug manifest

---
 scan_explorer_service/views/image_proxy.py | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index 2627237..7d3ca9b 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -26,7 +26,13 @@ def image_proxy(path):
     current_app.logger.debug(f'req_url:{req_url}')
     r = requests.request(request.method, req_url, params=request.args, stream=True,
                          headers=req_headers, allow_redirects=False, data=request.form)
-    current_app.logger.debug(f'Image proxy response: {r.json()}')
+    if r.status_code == 200:
+        try:
+            current_app.logger.debug(f'Image proxy response: {r.json()}')
+        except ValueError:
+            current_app.logger.error(f"Failed to parse JSON, response text: {r.text}")
+    else:
+        current_app.logger.error(f"Request failed with status code: {r.status_code}")
     
     excluded_headers = ['content-encoding','content-length', 'transfer-encoding', 'connection']
     headers = [(name, value) for (name, value) in r.headers.items() if name.lower() not in excluded_headers]

From 510268ad51256f8ee8187203fed3a358479b80ee Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Mon, 23 Sep 2024 14:01:48 -0400
Subject: [PATCH 03/38] removing problematic log

---
 scan_explorer_service/views/image_proxy.py | 11 +++--------
 1 file changed, 3 insertions(+), 8 deletions(-)

diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index 7d3ca9b..94d42a4 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -23,16 +23,11 @@ def image_proxy(path):
     req_headers['X-Forwarded-Host'] = current_app.config.get('PROXY_SERVER')
     req_headers['X-Forwarded-Path'] = current_app.config.get('PROXY_PREFIX').rstrip('/') + '/image'
 
-    current_app.logger.debug(f'req_url:{req_url}')
+    current_app.logger.debug(f'req_url: {req_url}')
     r = requests.request(request.method, req_url, params=request.args, stream=True,
                          headers=req_headers, allow_redirects=False, data=request.form)
-    if r.status_code == 200:
-        try:
-            current_app.logger.debug(f'Image proxy response: {r.json()}')
-        except ValueError:
-            current_app.logger.error(f"Failed to parse JSON, response text: {r.text}")
-    else:
-        current_app.logger.error(f"Request failed with status code: {r.status_code}")
+    
+    current_app.logger.debug(f"Response status code: {r.status_code}")
     
     excluded_headers = ['content-encoding','content-length', 'transfer-encoding', 'connection']
     headers = [(name, value) for (name, value) in r.headers.items() if name.lower() not in excluded_headers]

From e2a4be5afb202fc2126daf6ea143f71b481b7a03 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Mon, 23 Sep 2024 14:27:35 -0400
Subject: [PATCH 04/38] adding logs

---
 scan_explorer_service/views/image_proxy.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index 94d42a4..5888ab7 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -23,7 +23,8 @@ def image_proxy(path):
     req_headers['X-Forwarded-Host'] = current_app.config.get('PROXY_SERVER')
     req_headers['X-Forwarded-Path'] = current_app.config.get('PROXY_PREFIX').rstrip('/') + '/image'
 
-    current_app.logger.debug(f'req_url: {req_url}')
+    current_app.logger.debug(f'req_url: {req_url}, params: {request.args}, headers: {req_headers}, data: {request.form}')
+
     r = requests.request(request.method, req_url, params=request.args, stream=True,
                          headers=req_headers, allow_redirects=False, data=request.form)
     

From 1f18a0eccac047c6327cc29169ba03d1551794d1 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Tue, 24 Sep 2024 12:35:54 -0400
Subject: [PATCH 05/38] Encoding URL

---
 scan_explorer_service/views/image_proxy.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index 5888ab7..04c3f3a 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -23,9 +23,11 @@ def image_proxy(path):
     req_headers['X-Forwarded-Host'] = current_app.config.get('PROXY_SERVER')
     req_headers['X-Forwarded-Path'] = current_app.config.get('PROXY_PREFIX').rstrip('/') + '/image'
 
-    current_app.logger.debug(f'req_url: {req_url}, params: {request.args}, headers: {req_headers}, data: {request.form}')
+    encoded_url = urlparse.quote(req_url, safe=":/")
 
-    r = requests.request(request.method, req_url, params=request.args, stream=True,
+    current_app.logger.debug(f'req_url: {encoded_url}, params: {request.args}, headers: {req_headers}, data: {request.form}')
+
+    r = requests.request(request.method, encoded_url, params=request.args, stream=True,
                          headers=req_headers, allow_redirects=False, data=request.form)
     
     current_app.logger.debug(f"Response status code: {r.status_code}")

From 29a39895d712cee921b3f4db848557cf38c6626b Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Tue, 24 Sep 2024 12:56:22 -0400
Subject: [PATCH 06/38] Encoding URL

---
 scan_explorer_service/views/image_proxy.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index 04c3f3a..6041bca 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -23,7 +23,7 @@ def image_proxy(path):
     req_headers['X-Forwarded-Host'] = current_app.config.get('PROXY_SERVER')
     req_headers['X-Forwarded-Path'] = current_app.config.get('PROXY_PREFIX').rstrip('/') + '/image'
 
-    encoded_url = urlparse.quote(req_url, safe=":/")
+    encoded_url = req_url.replace("+", "%2B")
 
     current_app.logger.debug(f'req_url: {encoded_url}, params: {request.args}, headers: {req_headers}, data: {request.form}')
 

From d4dc69e1b4db08e85882f87ce1e22b8948fa4b38 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Mon, 30 Sep 2024 14:07:02 -0400
Subject: [PATCH 07/38] Encoding id

---
 scan_explorer_service/views/image_proxy.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index 6041bca..04f8670 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -47,7 +47,7 @@ def generate():
 def image_proxy_thumbnail():
     """Helper to generate the correct url for a thumbnail given an ID and type"""
     try:
-        id = request.args.get('id')
+        id = request.args.get('id').replace(" ", "+")
         current_app.logger.debug(f'id {id}')
         type = request.args.get('type')
         current_app.logger.debug(f'type {type}')

From c65b686906e79795ad11f2e6b6595a0a4da228be Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Wed, 2 Oct 2024 14:02:00 -0400
Subject: [PATCH 08/38] adding more logs

---
 scan_explorer_service/views/image_proxy.py | 17 ++++++++++++++++-
 1 file changed, 16 insertions(+), 1 deletion(-)

diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index 04f8670..72db530 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -76,8 +76,10 @@ def get_item(session, id):
                 session.query(Article).filter(Article.id == id).one_or_none()
                 or session.query(Collection).filter(Collection.id == id).one_or_none())
     if not item: 
+        current_app.logger.debug(f'Item with id {id} not found')
         raise Exception("ID: " + id + " not found")
     
+    current_app.logger.debug(f'Item retrieved successfully {item}')
     return item 
 
 
@@ -128,11 +130,20 @@ def fetch_object(object_name, bucket_name):
 def fetch_article(item):
     try:
         current_app.logger.debug(f"Item is an article: {item.id}")
+
         object_name = f'{item.id}.pdf'.lower()
+        current_app.logger.debug(f"object name: {object_name}")
+
         full_path = f'pdfs/{object_name}'
+        current_app.logger.debug(f"full path: {full_path}")
+
         file_content = fetch_object(full_path, 'AWS_BUCKET_NAME_PDF')
+        current_app.logger.debug(f"file content: {file_content}")
+
         response = Response(file_content, mimetype='application/pdf')
+        
         response.headers['Content-Disposition'] = f'attachment; filename="{object_name}"'
+        
         return response
     except Exception as e:
         current_app.logger.exception(f"Failed to get PDF using fallback method for {object_name}: {str(e)}")
@@ -141,6 +152,7 @@ def fetch_article(item):
 def generate_pdf(item, session, page_start, page_end, page_limit, memory_limit): 
     if isinstance(item, Article):
         response = fetch_article(item)
+        current_app.logger.debug(f"response fetch article: {response}")
         if response:
             return response
         else:
@@ -160,12 +172,15 @@ def pdf_save():
         memory_limit = current_app.config.get("IMAGE_PDF_MEMORY_LIMIT")
         page_limit = current_app.config.get("IMAGE_PDF_PAGE_LIMIT")
 
+        current_app.logger.debug(f"pdf ID: {id}, page_start: {page_start}, page_end: {page_end}, memory_limit: {memory_limit}, page_limit: {page_limit}")
+
         with current_app.session_scope() as session:
             
             item = get_item(session, id) 
-            current_app.logger.info(f"Item retrieved successfully: {item.id}")
+            current_app.logger.debug(f"Item retrieved successfully: {item.id}")
 
             response = generate_pdf(item, session, page_start, page_end, page_limit, memory_limit)
+            current_app.logger.debug(f"Response pdf save: {response}")
             return response 
     except Exception as e:
         return jsonify(Message=str(e)), 400    
\ No newline at end of file

From c202ab0505888724dda20c5c7ec5278b573474e0 Mon Sep 17 00:00:00 2001
From: Fernanda de Macedo Alves <fernanda.de_macedo_alves@cfa.harvard.edu>
Date: Tue, 22 Oct 2024 16:56:19 +0000
Subject: [PATCH 09/38] solving color_type:Color bug

---
 scan_explorer_service/tests/test_search_utils.py |  6 ++++++
 scan_explorer_service/utils/search_utils.py      | 10 +++++-----
 2 files changed, 11 insertions(+), 5 deletions(-)

diff --git a/scan_explorer_service/tests/test_search_utils.py b/scan_explorer_service/tests/test_search_utils.py
index 6265192..adf77da 100644
--- a/scan_explorer_service/tests/test_search_utils.py
+++ b/scan_explorer_service/tests/test_search_utils.py
@@ -37,6 +37,12 @@ def test_parse_query(self):
         final_query, _ = parse_query_string('PageColor:grAYsCaLe')
         self.assertEqual(final_query, 'page_color:Grayscale')
 
+        final_query, _ = parse_query_string('PageColor:BW')
+        self.assertEqual(final_query, 'page_color:BW')
+
+        final_query, _ = parse_query_string('PageColor:cOlor')
+        self.assertEqual(final_query, 'page_color:Color')
+
 
 if __name__ == '__main__':
     unittest.main()
diff --git a/scan_explorer_service/utils/search_utils.py b/scan_explorer_service/utils/search_utils.py
index 439ffc9..6d3f714 100644
--- a/scan_explorer_service/utils/search_utils.py
+++ b/scan_explorer_service/utils/search_utils.py
@@ -73,7 +73,7 @@ def parse_query_string(qs):
         qs_only_free = qs_only_free.replace(kv, "")
         if len(kv_arr) == 2:
             qs_dict[kv_arr[0].lower()] = kv_arr[1].strip()
-            #If the option have qutoes we remove them from the free. Previous removal would than have failed
+            #If the option have quotes we remove them from the free. Previous removal would than have failed
             alt_kv = kv_arr[0] + ':"' + kv_arr[1] + '"'
             qs_only_free = qs_only_free.replace(alt_kv, '')
 
@@ -86,11 +86,10 @@ def parse_query_string(qs):
     for key in qs_dict.keys():
         #Translate input on the keys to the dedicated OS columns
         insensitive_replace = re.compile(re.escape(key), re.IGNORECASE)
-        qs = insensitive_replace.sub(query_translations[key.lower()], qs)
-
-        insensitive_replace = re.compile(re.escape(qs_dict[key]), re.IGNORECASE)
+        qs = insensitive_replace.sub(query_translations[key.lower()], qs)   
+        # To ensure only the strings after the colon are replaced and no partial replacements are made 
+        insensitive_replace = re.compile(r'(?<=:)\b' + re.escape(qs_dict[key]) + r'\b', re.IGNORECASE)
         qs = insensitive_replace.sub(qs_dict[key], qs)
-
     return qs, qs_dict
 
 def parse_sorting_option(sort_input: str):
@@ -131,6 +130,7 @@ def check_page_color(qs_dict: dict):
         valid_types = [p.name for p in PageColor]
         if page_color in valid_types:
             return
+        
         # Check lowercased and updated to cased
         for p in PageColor:
             if page_color.replace('"','').lower() == p.name.lower():

From 111162c22d9da5a82510223f07025a074ed350f5 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Wed, 23 Oct 2024 15:11:03 -0400
Subject: [PATCH 10/38] debugging page color error

---
 scan_explorer_service/open_search.py        |  4 ++++
 scan_explorer_service/utils/search_utils.py | 19 +++++++++++++++++++
 scan_explorer_service/views/metadata.py     |  9 ++++++++-
 3 files changed, 31 insertions(+), 1 deletion(-)

diff --git a/scan_explorer_service/open_search.py b/scan_explorer_service/open_search.py
index 85e7220..7206abb 100644
--- a/scan_explorer_service/open_search.py
+++ b/scan_explorer_service/open_search.py
@@ -13,6 +13,7 @@ def create_query_string_query(query_string: str):
             }
         }
     }
+    current_app.logger.debug(f"query string: {query}")
     return query
 
 def append_aggregate(query: dict, agg_field: EsFields, page: int, size: int, sort: OrderOptions):
@@ -144,6 +145,9 @@ def page_ocr_os_search(collection_id: str, page_number:int):
 
 def aggregate_search(qs: str, aggregate_field, page, limit, sort):
     query = create_query_string_query(qs)
+    current_app.logger.debug(f"query: {query}")
     query = append_aggregate(query, aggregate_field, page, limit, sort)
+    current_app.logger.debug(f"query with aggregate: {query}")
     es_result = es_search(query)
+    current_app.logger.debug(f"es_result: {es_result}")
     return es_result
\ No newline at end of file
diff --git a/scan_explorer_service/utils/search_utils.py b/scan_explorer_service/utils/search_utils.py
index 6d3f714..1279f08 100644
--- a/scan_explorer_service/utils/search_utils.py
+++ b/scan_explorer_service/utils/search_utils.py
@@ -4,6 +4,8 @@
 import enum
 import re
 
+from flask import current_app
+
 class SearchOptions(enum.Enum):
     """Available Search Options"""
     Bibcode = 'bibcode'
@@ -53,30 +55,44 @@ class OrderOptions(str, enum.Enum):
 
 def parse_query_args(args):
     qs = re.sub(':\s*', ':', args.get('q', '', str))
+    current_app.logger.debug(f'qs {qs}')
+
     qs, qs_dict = parse_query_string(qs)
 
+    current_app.logger.debug(f'qs {qs}, qs_dict {qs_dict}')
+
+
     page = args.get('page', 1, int)
     limit = args.get('limit', 10, int)
     sort_raw = args.get('sort')
     sort = parse_sorting_option(sort_raw)
+    current_app.logger.debug(f'qs {qs}, qs_dict {qs_dict}, sort {sort}')
     return qs, qs_dict, page, limit, sort
 
 def parse_query_string(qs):
     qs_to_split = qs.replace('[', '"[').replace(']',']"')
+    current_app.logger.debug(f'qs to split {qs_to_split}')
     qs_arr = [q for q in shlex.split(qs_to_split) if ':' in q]
+    current_app.logger.debug(f'qs arr {qs_arr}')
     qs_dict = {}
     qs_only_free = qs
+    current_app.logger.debug(f'qs only free {qs_only_free}')
     
     for kv in qs_arr:
         kv_arr = kv.split(':', maxsplit=1)
+        current_app.logger.debug(f'kv_arr {kv_arr}')
         #Remove all parameter from the original search to be able to handle the free search
         qs_only_free = qs_only_free.replace(kv, "")
+        current_app.logger.debug(f'qs_only_free {qs_only_free}')
+
         if len(kv_arr) == 2:
             qs_dict[kv_arr[0].lower()] = kv_arr[1].strip()
             #If the option have quotes we remove them from the free. Previous removal would than have failed
             alt_kv = kv_arr[0] + ':"' + kv_arr[1] + '"'
             qs_only_free = qs_only_free.replace(alt_kv, '')
+            current_app.logger.debug(f'kv_arr == 2. alt_kv {alt_kv}, qs_only_free {qs_only_free}')
 
+    current_app.logger.debug(f'qs dict {qs_dict}')    
     check_query(qs_dict)
     #Adds a () around each free search to force OS to look for each individual entry against all default fields
     for parameter in re.split('\s+', qs_only_free):
@@ -90,6 +106,7 @@ def parse_query_string(qs):
         # To ensure only the strings after the colon are replaced and no partial replacements are made 
         insensitive_replace = re.compile(r'(?<=:)\b' + re.escape(qs_dict[key]) + r'\b', re.IGNORECASE)
         qs = insensitive_replace.sub(qs_dict[key], qs)
+    current_app.logger.debug(f'qs: {qs} and qs dict: {qs_dict}')    
     return qs, qs_dict
 
 def parse_sorting_option(sort_input: str):
@@ -129,12 +146,14 @@ def check_page_color(qs_dict: dict):
         page_color = qs_dict[SearchOptions.PageColor.value]
         valid_types = [p.name for p in PageColor]
         if page_color in valid_types:
+            current_app.logger.debug("Page color {page_color} is valid")
             return
         
         # Check lowercased and updated to cased
         for p in PageColor:
             if page_color.replace('"','').lower() == p.name.lower():
                 qs_dict[SearchOptions.PageColor.value] = p.name
+                current_app.logger.debug("Page color {qs_dict[SearchOptions.PageColor.value]} changed to {p.name}")
                 return
         raise Exception("%s is not a valid page color, %s is possible choices"% (page_color, str(valid_types)))
 
diff --git a/scan_explorer_service/views/metadata.py b/scan_explorer_service/views/metadata.py
index 5721be8..44b4f90 100644
--- a/scan_explorer_service/views/metadata.py
+++ b/scan_explorer_service/views/metadata.py
@@ -129,19 +129,26 @@ def article_search():
     """Search for an article using one or some of the available keywords"""
     try:
         qs, qs_dict, page, limit, sort = parse_query_args(request.args)
+        current_app.logger.debug(f'qs: {qs}, qs_dict: {qs_dict}, page: {page}, limit: {limit}, sort: {sort}')
         result = aggregate_search(qs, EsFields.article_id, page, limit, sort)
+        current_app.logger.debug(f'result: {result}')
         text_query = ''
         if SearchOptions.FullText.value in qs_dict.keys():
             text_query = qs_dict[SearchOptions.FullText.value]
+            current_app.logger.debug(f'text_query: {text_query}')
 
         article_count = result['aggregations']['total_count']['value']
+        current_app.logger.debug(f'article_count: {article_count}')
+
         collection_count = page_count = 0
         if article_count == 0:
             collection_count = aggregate_search(qs, EsFields.volume_id, page, limit, sort)['aggregations']['total_count']['value']
+            current_app.logger.debug(f'collection_count: {collection_count}')
             page_count = page_os_search(qs, page, limit, sort)['hits']['total']['value']
+            current_app.logger.debug(f'page_count: {collection_count}')
         return jsonify(serialize_os_article_result(result, page, limit, text_query, collection_count, page_count))
     except Exception as e:
-        current_app.logger.error(f"{e}")
+        current_app.logger.error(f"An exception has occurred: {e}")
         return jsonify(message=str(e), type=ApiErrors.SearchError.value), 400
 
 

From da2e65c37d6e5947a3fc5299a1036b6003fde452 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Thu, 7 Nov 2024 12:51:20 -0500
Subject: [PATCH 11/38] fixing color download

---
 scan_explorer_service/models.py            | 6 +++++-
 scan_explorer_service/views/image_proxy.py | 6 ++++--
 2 files changed, 9 insertions(+), 3 deletions(-)

diff --git a/scan_explorer_service/models.py b/scan_explorer_service/models.py
index 513e9e1..8055071 100644
--- a/scan_explorer_service/models.py
+++ b/scan_explorer_service/models.py
@@ -158,6 +158,7 @@ def image_url(self):
     def image_path(self):
         separator = current_app.config.get('IMAGE_API_SLASH_SUB', '%2F')
         image_path = separator.join(self.image_path_basic) 
+        current_app.logger.debug(f'color type: {self.color_type}')
         if self.color_type != PageColor.BW:
             image_path += '.tif'
         current_app.logger.debug(f'image path: {image_path}')
@@ -165,11 +166,14 @@ def image_path(self):
     
     @property
     def image_path_basic(self):
+        format = ''
         image_path = [self.collection.type, self.collection.journal, self.collection.volume]
         image_path = [item.replace('.', '_') for item in image_path]
         image_path = ['bitmaps'] + image_path + ['600', self.name]
         current_app.logger.debug(f'image path basic: {image_path}')
-        return image_path 
+        if self.color_type != PageColor.BW:
+            format = '.tif'
+        return image_path, format
 
     @property
     def thumbnail_url(self):
diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index 72db530..0af60f0 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -113,8 +113,10 @@ def fetch_images(session, item, page_start, page_end, page_limit, memory_limit):
         if memory_sum > memory_limit:
             current_app.logger.error(f"Memory limit reached: {memory_sum} > {memory_limit}") 
             break
-        
-        object_name = '/'.join(page.image_path_basic)
+        image_path, format = page.image_path_basic
+        object_name = '/'.join(image_path)
+        object_name += format
+
         current_app.logger.debug(f"Image path: {object_name}")
         im_data = fetch_object(object_name, 'AWS_BUCKET_NAME_IMAGE')
 

From ccce3dd3ea5fe9614f1a461c061fad0256301e8d Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Tue, 12 Nov 2024 13:51:53 -0500
Subject: [PATCH 12/38] fixing thumbnail bug

---
 scan_explorer_service/models.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/scan_explorer_service/models.py b/scan_explorer_service/models.py
index 8055071..5590054 100644
--- a/scan_explorer_service/models.py
+++ b/scan_explorer_service/models.py
@@ -157,7 +157,7 @@ def image_url(self):
     @property
     def image_path(self):
         separator = current_app.config.get('IMAGE_API_SLASH_SUB', '%2F')
-        image_path = separator.join(self.image_path_basic) 
+        image_path = separator.join(self.image_path_basic[0]) 
         current_app.logger.debug(f'color type: {self.color_type}')
         if self.color_type != PageColor.BW:
             image_path += '.tif'
@@ -166,14 +166,14 @@ def image_path(self):
     
     @property
     def image_path_basic(self):
-        format = ''
+        image_format = ''
         image_path = [self.collection.type, self.collection.journal, self.collection.volume]
         image_path = [item.replace('.', '_') for item in image_path]
         image_path = ['bitmaps'] + image_path + ['600', self.name]
         current_app.logger.debug(f'image path basic: {image_path}')
         if self.color_type != PageColor.BW:
-            format = '.tif'
-        return image_path, format
+            image_format = '.tif'
+        return image_path, image_format
 
     @property
     def thumbnail_url(self):

From 8d2b1f559e47123c6c9c8e6073fcf48a51725cd5 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Tue, 12 Nov 2024 14:08:52 -0500
Subject: [PATCH 13/38] introducing ampersand searches

---
 scan_explorer_service/views/image_proxy.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index 0af60f0..7bdc0f6 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -9,6 +9,7 @@
 from scan_explorer_service.utils.db_utils import item_thumbnail
 from scan_explorer_service.utils.s3_utils import S3Provider
 from scan_explorer_service.utils.utils import url_for_proxy
+import re
 
 bp_proxy = Blueprint('proxy', __name__, url_prefix='/image')
 
@@ -23,8 +24,8 @@ def image_proxy(path):
     req_headers['X-Forwarded-Host'] = current_app.config.get('PROXY_SERVER')
     req_headers['X-Forwarded-Path'] = current_app.config.get('PROXY_PREFIX').rstrip('/') + '/image'
 
-    encoded_url = req_url.replace("+", "%2B")
-
+    encoded_url = re.sub(r"[+&]", "%2B", req_url)
+    
     current_app.logger.debug(f'req_url: {encoded_url}, params: {request.args}, headers: {req_headers}, data: {request.form}')
 
     r = requests.request(request.method, encoded_url, params=request.args, stream=True,

From 396404244a055ca0b85fd494afe0474e433da08c Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Tue, 12 Nov 2024 15:33:55 -0500
Subject: [PATCH 14/38] introducing ampersand searches

---
 scan_explorer_service/open_search.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/scan_explorer_service/open_search.py b/scan_explorer_service/open_search.py
index 7206abb..4c17fe2 100644
--- a/scan_explorer_service/open_search.py
+++ b/scan_explorer_service/open_search.py
@@ -113,6 +113,7 @@ def set_page_search_fields(query: dict) -> dict:
     return query
 
 def page_os_search(qs: str, page, limit, sort):
+    qs = qs.replace("&", "+")
     query = create_query_string_query(qs)
     query = set_page_search_fields(query)
     from_number = (page - 1) * limit
@@ -144,6 +145,7 @@ def page_ocr_os_search(collection_id: str, page_number:int):
     return es_result
 
 def aggregate_search(qs: str, aggregate_field, page, limit, sort):
+    qs = qs.replace("&", "+")
     query = create_query_string_query(qs)
     current_app.logger.debug(f"query: {query}")
     query = append_aggregate(query, aggregate_field, page, limit, sort)

From 7e2ddffa97897862560d2a4c65a516d5c9edda23 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Tue, 19 Nov 2024 12:30:52 -0500
Subject: [PATCH 15/38] adding logs to debug book download

---
 scan_explorer_service/utils/s3_utils.py    | 5 ++++-
 scan_explorer_service/views/image_proxy.py | 3 +++
 2 files changed, 7 insertions(+), 1 deletion(-)

diff --git a/scan_explorer_service/utils/s3_utils.py b/scan_explorer_service/utils/s3_utils.py
index 2cffd65..fdef7fd 100644
--- a/scan_explorer_service/utils/s3_utils.py
+++ b/scan_explorer_service/utils/s3_utils.py
@@ -30,13 +30,16 @@ def write_object_s3(self, file_bytes, object_name):
 
     def read_object_s3(self, object_name):
         try:
+            current_app.logger.debug(f"Attempting to download object: {object_name}")
             with io.BytesIO() as s3_obj:
                 self.bucket.download_fileobj(object_name, s3_obj)
+                current_app.logger.debug(f"Object downloaded successfully: {object_name}")
                 s3_obj.seek(0)
                 s3_file = s3_obj.read()
+                current_app.logger.debug(f"Read {len(s3_file)} bytes from object: {object_name}")
                 return s3_file
         except (ClientError, ParamValidationError) as e:
-            current_app.logger.exception(e)
+            current_app.logger.exception(f"Error reading object {object_name}: {str(e)}")
             raise e
 
 
diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index 7bdc0f6..b3c397d 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -126,6 +126,9 @@ def fetch_images(session, item, page_start, page_end, page_limit, memory_limit):
 
 def fetch_object(object_name, bucket_name):
     file_content = S3Provider(current_app.config, bucket_name).read_object_s3(object_name)
+    if not file_content:
+        current_app.logger.error(f"Failed to fetch content for {object_name}. File might be empty.")
+        raise ValueError(f"File content is empty for {object_name}")
     current_app.logger.debug(f"Successfully fetched object from S3 bucket: {object_name}")
     return file_content
 

From 575b9529abf3d53a89f196dd4554db3d7cdc886d Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Tue, 3 Dec 2024 13:43:13 -0500
Subject: [PATCH 16/38] adding profiling to debug book download

---
 scan_explorer_service/views/image_proxy.py | 21 +++++++++++++++++++++
 1 file changed, 21 insertions(+)

diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index b3c397d..38a387b 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -10,6 +10,9 @@
 from scan_explorer_service.utils.s3_utils import S3Provider
 from scan_explorer_service.utils.utils import url_for_proxy
 import re
+import io 
+import cProfile
+import pstats
 
 bp_proxy = Blueprint('proxy', __name__, url_prefix='/image')
 
@@ -172,6 +175,10 @@ def generate_pdf(item, session, page_start, page_end, page_limit, memory_limit):
 def pdf_save():
     """Generate a PDF from pages"""
     try:
+        profiler = cProfile.Profile()
+        profiler.enable()
+        
+
         id = request.args.get('id')
         page_start = request.args.get('page_start', 1, int)
         page_end = request.args.get('page_end', math.inf, int)
@@ -187,6 +194,20 @@ def pdf_save():
 
             response = generate_pdf(item, session, page_start, page_end, page_limit, memory_limit)
             current_app.logger.debug(f"Response pdf save: {response}")
+
+            profiler.disable()
+            
+            # Log the profiling information
+            log_buffer = io.StringIO()
+            profiler_stats = pstats.Stats(profiler, stream=log_buffer)
+            profiler_stats.strip_dirs().sort_stats('cumulative', 'calls').print_stats(20)
+ 
+            formatted_stats = log_buffer.getvalue().splitlines()
+
+            current_app.logger.debug(f'==================Profiling information========================: \n')
+            for line in formatted_stats:
+                current_app.logger.debug(line)
+
             return response 
     except Exception as e:
         return jsonify(Message=str(e)), 400    
\ No newline at end of file

From 2e31b9838e4fd148f1a6326e110282f78ac9c609 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Mon, 30 Dec 2024 15:14:16 -0500
Subject: [PATCH 17/38] adding logs

---
 scan_explorer_service/utils/s3_utils.py    | 7 ++++---
 scan_explorer_service/views/image_proxy.py | 7 ++++++-
 2 files changed, 10 insertions(+), 4 deletions(-)

diff --git a/scan_explorer_service/utils/s3_utils.py b/scan_explorer_service/utils/s3_utils.py
index fdef7fd..c8a76f9 100644
--- a/scan_explorer_service/utils/s3_utils.py
+++ b/scan_explorer_service/utils/s3_utils.py
@@ -37,9 +37,10 @@ def read_object_s3(self, object_name):
                 s3_obj.seek(0)
                 s3_file = s3_obj.read()
                 current_app.logger.debug(f"Read {len(s3_file)} bytes from object: {object_name}")
+                current_app.logger.debug(f"First 100 bytes of file content: {s3_file[:100]}")
                 return s3_file
-        except (ClientError, ParamValidationError) as e:
-            current_app.logger.exception(f"Error reading object {object_name}: {str(e)}")
-            raise e
+        except Exception as e:
+            current_app.logger.exception(f"Unexpected error reading object {object_name}: {str(e)}")
+            raise
 
 
diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index 38a387b..30ec317 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -128,11 +128,14 @@ def fetch_images(session, item, page_start, page_end, page_limit, memory_limit):
 
 
 def fetch_object(object_name, bucket_name):
+    current_app.logger.debug(f"Using bucket: {bucket_name}")
     file_content = S3Provider(current_app.config, bucket_name).read_object_s3(object_name)
+    current_app.logger.debug(f"File content type: {type(file_content)}, length: {len(file_content) if file_content else 'None'}")
     if not file_content:
         current_app.logger.error(f"Failed to fetch content for {object_name}. File might be empty.")
         raise ValueError(f"File content is empty for {object_name}")
     current_app.logger.debug(f"Successfully fetched object from S3 bucket: {object_name}")
+   
     return file_content
 
 
@@ -161,12 +164,14 @@ def fetch_article(item):
 def generate_pdf(item, session, page_start, page_end, page_limit, memory_limit): 
     if isinstance(item, Article):
         response = fetch_article(item)
+        current_app.logger.debug(f"Item is an article")
         current_app.logger.debug(f"response fetch article: {response}")
         if response:
             return response
         else:
+            current_app.logger.debug(f"Response fetch article was empty")
             page_end = page_limit
-
+    current_app.logger.debug(f"Article is not an article or fetch article failed.")
     return Response(img2pdf.convert([im for im in fetch_images(session, item, page_start, page_end, page_limit, memory_limit)]), mimetype='application/pdf')
 
                  

From fb757f3d4ef3b5ca5ff370245fd85f335fc38f55 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Mon, 30 Dec 2024 18:41:19 -0500
Subject: [PATCH 18/38] adding change files and allowing lowercase search

---
 scan_explorer_service/views/image_proxy.py | 18 +++++++++++-------
 scan_explorer_service/views/metadata.py    |  6 +++---
 2 files changed, 14 insertions(+), 10 deletions(-)

diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index 30ec317..ee8553e 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -1,5 +1,5 @@
 from typing import Union
-from flask import Blueprint, Response, current_app, request, stream_with_context, jsonify
+from flask import Blueprint, Response, current_app, request, stream_with_context, jsonify, send_file
 from flask_discoverer import advertise
 from urllib import parse as urlparse
 import img2pdf
@@ -150,13 +150,17 @@ def fetch_article(item):
         current_app.logger.debug(f"full path: {full_path}")
 
         file_content = fetch_object(full_path, 'AWS_BUCKET_NAME_PDF')
-        current_app.logger.debug(f"file content: {file_content}")
+        current_app.logger.debug(f"File content type in fetch_article: {type(file_content)}, length: {len(file_content) if file_content else 'None'}")
 
-        response = Response(file_content, mimetype='application/pdf')
-        
-        response.headers['Content-Disposition'] = f'attachment; filename="{object_name}"'
-        
-        return response
+        file_stream = io.BytesIO(file_content)
+        file_stream.seek(0)
+
+        return send_file(
+            file_stream,
+            as_attachment=True,
+            download_name=object_name,
+            mimetype='application/pdf'
+        )
     except Exception as e:
         current_app.logger.exception(f"Failed to get PDF using fallback method for {object_name}: {str(e)}")
         
diff --git a/scan_explorer_service/views/metadata.py b/scan_explorer_service/views/metadata.py
index 44b4f90..51393dc 100644
--- a/scan_explorer_service/views/metadata.py
+++ b/scan_explorer_service/views/metadata.py
@@ -134,7 +134,7 @@ def article_search():
         current_app.logger.debug(f'result: {result}')
         text_query = ''
         if SearchOptions.FullText.value in qs_dict.keys():
-            text_query = qs_dict[SearchOptions.FullText.value]
+            text_query = qs_dict[SearchOptions.FullText.value].lower()
             current_app.logger.debug(f'text_query: {text_query}')
 
         article_count = result['aggregations']['total_count']['value']
@@ -161,7 +161,7 @@ def collection_search():
         result = aggregate_search(qs, EsFields.volume_id, page, limit, sort)
         text_query = ''
         if SearchOptions.FullText.value in qs_dict.keys():
-            text_query = qs_dict[SearchOptions.FullText.value]
+            text_query = qs_dict[SearchOptions.FullText.value].lower()
         return jsonify(serialize_os_collection_result(result, page, limit, text_query))
     except Exception as e:
         return jsonify(message=str(e), type=ApiErrors.SearchError.value), 400
@@ -175,7 +175,7 @@ def page_search():
         result = page_os_search(qs, page, limit, sort)
         text_query = ''
         if SearchOptions.FullText.value in qs_dict.keys():
-            text_query = qs_dict[SearchOptions.FullText.value]
+            text_query = qs_dict[SearchOptions.FullText.value].lower()
         return jsonify(serialize_os_page_result(result, page, limit, text_query))
     except Exception as e:
         return jsonify(message=str(e), type=ApiErrors.SearchError.value), 400

From 6bdc09abd857abae75d891f39f34ae18b99ab98a Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Mon, 30 Dec 2024 18:58:23 -0500
Subject: [PATCH 19/38] adding memory limit logs

---
 scan_explorer_service/views/image_proxy.py | 9 +++++++--
 1 file changed, 7 insertions(+), 2 deletions(-)

diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index ee8553e..d45f70c 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -13,6 +13,7 @@
 import io 
 import cProfile
 import pstats
+import sys
 
 bp_proxy = Blueprint('proxy', __name__, url_prefix='/image')
 
@@ -123,6 +124,7 @@ def fetch_images(session, item, page_start, page_end, page_limit, memory_limit):
 
         current_app.logger.debug(f"Image path: {object_name}")
         im_data = fetch_object(object_name, 'AWS_BUCKET_NAME_IMAGE')
+        memory_sum += sys.getsizeof(im_data)
 
         yield im_data
 
@@ -139,7 +141,7 @@ def fetch_object(object_name, bucket_name):
     return file_content
 
 
-def fetch_article(item):
+def fetch_article(item, memory_limit):
     try:
         current_app.logger.debug(f"Item is an article: {item.id}")
 
@@ -152,6 +154,9 @@ def fetch_article(item):
         file_content = fetch_object(full_path, 'AWS_BUCKET_NAME_PDF')
         current_app.logger.debug(f"File content type in fetch_article: {type(file_content)}, length: {len(file_content) if file_content else 'None'}")
 
+        if len(file_content) > memory_limit:
+            current_app.logger.error(f"Memory limit reached: {len(file_content)} > {memory_limit}") 
+
         file_stream = io.BytesIO(file_content)
         file_stream.seek(0)
 
@@ -167,7 +172,7 @@ def fetch_article(item):
        
 def generate_pdf(item, session, page_start, page_end, page_limit, memory_limit): 
     if isinstance(item, Article):
-        response = fetch_article(item)
+        response = fetch_article(item, memory_limit)
         current_app.logger.debug(f"Item is an article")
         current_app.logger.debug(f"response fetch article: {response}")
         if response:

From 14bd39da61399939ddce6af6b2541353b09f8ab3 Mon Sep 17 00:00:00 2001
From: Fernanda de Macedo Alves <fernanda.de_macedo_alves@cfa.harvard.edu>
Date: Tue, 21 Jan 2025 18:19:22 +0000
Subject: [PATCH 20/38] fixing bug in pdf generation

---
 scan_explorer_service/views/image_proxy.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index d45f70c..ce15dc2 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -163,7 +163,7 @@ def fetch_article(item, memory_limit):
         return send_file(
             file_stream,
             as_attachment=True,
-            download_name=object_name,
+            attachment_filename=object_name,
             mimetype='application/pdf'
         )
     except Exception as e:

From de1c531b7fbf2f0267ae4b433e8e7a42e11effce Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Tue, 21 Jan 2025 16:33:52 -0500
Subject: [PATCH 21/38] adding lowercase queries

---
 scan_explorer_service/open_search.py         |  1 +
 scan_explorer_service/tests/test_metadata.py |  4 ++--
 scan_explorer_service/views/metadata.py      | 10 +++++++---
 3 files changed, 10 insertions(+), 5 deletions(-)

diff --git a/scan_explorer_service/open_search.py b/scan_explorer_service/open_search.py
index 4c17fe2..1b6e855 100644
--- a/scan_explorer_service/open_search.py
+++ b/scan_explorer_service/open_search.py
@@ -72,6 +72,7 @@ def append_highlight(query: dict):
 
 def es_search(query: dict) -> Iterator[str]:
     es = opensearchpy.OpenSearch(current_app.config.get('OPEN_SEARCH_URL'))
+    current_app.logger.debug(f"Query search: {query}")
     resp = es.search(index=current_app.config.get(
         'OPEN_SEARCH_INDEX'), body=query)
     return resp
diff --git a/scan_explorer_service/tests/test_metadata.py b/scan_explorer_service/tests/test_metadata.py
index 9275298..86ed934 100644
--- a/scan_explorer_service/tests/test_metadata.py
+++ b/scan_explorer_service/tests/test_metadata.py
@@ -89,10 +89,10 @@ def test_get_article(self, OpenSearch):
         r = self.client.get(url)
         expected_query = {'query': {'query_string': {'query': 'article_bibcodes_lowercase:1988ApJ...333..341R', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'article_bibcodes'}}, 'ids': {'terms': {'field': 'article_bibcodes', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
         call_args, call_kwargs = es.search.call_args
-        self.assertEqual(expected_query, call_kwargs.get('body'))
+        self.assertEqual(expected_query['query']['query_string']['query'].lower(), call_kwargs.get('body')['query']['query_string']['query'])
         self.assertStatus(r, 200)
         expected_response = {"extra_collection_count": 0, "extra_page_count": 0,  "items": [{"bibcode": self.article.bibcode, "id": self.article.id, "pages": 3 }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
-        self.assertEqual(r.data, jsonify(expected_response).data)
+        self.assertEqual(r.json, expected_response)
 
     @patch('opensearchpy.OpenSearch')
     def test_get_collection(self, OpenSearch):
diff --git a/scan_explorer_service/views/metadata.py b/scan_explorer_service/views/metadata.py
index 51393dc..c000ffb 100644
--- a/scan_explorer_service/views/metadata.py
+++ b/scan_explorer_service/views/metadata.py
@@ -129,12 +129,13 @@ def article_search():
     """Search for an article using one or some of the available keywords"""
     try:
         qs, qs_dict, page, limit, sort = parse_query_args(request.args)
+        qs = qs.lower()
         current_app.logger.debug(f'qs: {qs}, qs_dict: {qs_dict}, page: {page}, limit: {limit}, sort: {sort}')
         result = aggregate_search(qs, EsFields.article_id, page, limit, sort)
         current_app.logger.debug(f'result: {result}')
         text_query = ''
         if SearchOptions.FullText.value in qs_dict.keys():
-            text_query = qs_dict[SearchOptions.FullText.value].lower()
+            text_query = qs_dict[SearchOptions.FullText.value]
             current_app.logger.debug(f'text_query: {text_query}')
 
         article_count = result['aggregations']['total_count']['value']
@@ -158,10 +159,11 @@ def collection_search():
     """Search for a collection using one or some of the available keywords"""
     try:
         qs, qs_dict, page, limit, sort = parse_query_args(request.args)
+        qs = qs.lower()
         result = aggregate_search(qs, EsFields.volume_id, page, limit, sort)
         text_query = ''
         if SearchOptions.FullText.value in qs_dict.keys():
-            text_query = qs_dict[SearchOptions.FullText.value].lower()
+            text_query = qs_dict[SearchOptions.FullText.value]
         return jsonify(serialize_os_collection_result(result, page, limit, text_query))
     except Exception as e:
         return jsonify(message=str(e), type=ApiErrors.SearchError.value), 400
@@ -172,10 +174,12 @@ def page_search():
     """Search for a page using one or some of the available keywords"""
     try:
         qs, qs_dict, page, limit, sort = parse_query_args(request.args)
+        qs = qs.lower()
         result = page_os_search(qs, page, limit, sort)
         text_query = ''
         if SearchOptions.FullText.value in qs_dict.keys():
-            text_query = qs_dict[SearchOptions.FullText.value].lower()
+            text_query = qs_dict[SearchOptions.FullText.value]
+
         return jsonify(serialize_os_page_result(result, page, limit, text_query))
     except Exception as e:
         return jsonify(message=str(e), type=ApiErrors.SearchError.value), 400

From 259fe5243171d710bffd7baaec1a12685c3d2431 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Tue, 21 Jan 2025 16:48:13 -0500
Subject: [PATCH 22/38] removing lowercase queries

---
 scan_explorer_service/tests/test_metadata.py | 5 +++--
 scan_explorer_service/views/metadata.py      | 3 ---
 2 files changed, 3 insertions(+), 5 deletions(-)

diff --git a/scan_explorer_service/tests/test_metadata.py b/scan_explorer_service/tests/test_metadata.py
index 86ed934..1bed5c2 100644
--- a/scan_explorer_service/tests/test_metadata.py
+++ b/scan_explorer_service/tests/test_metadata.py
@@ -89,10 +89,11 @@ def test_get_article(self, OpenSearch):
         r = self.client.get(url)
         expected_query = {'query': {'query_string': {'query': 'article_bibcodes_lowercase:1988ApJ...333..341R', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'article_bibcodes'}}, 'ids': {'terms': {'field': 'article_bibcodes', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
         call_args, call_kwargs = es.search.call_args
-        self.assertEqual(expected_query['query']['query_string']['query'].lower(), call_kwargs.get('body')['query']['query_string']['query'])
+        self.assertEqual(expected_query, call_kwargs.get('body'))
         self.assertStatus(r, 200)
         expected_response = {"extra_collection_count": 0, "extra_page_count": 0,  "items": [{"bibcode": self.article.bibcode, "id": self.article.id, "pages": 3 }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
-        self.assertEqual(r.json, expected_response)
+        
+        self.assertEqual(r.data, jsonify(expected_response).data)
 
     @patch('opensearchpy.OpenSearch')
     def test_get_collection(self, OpenSearch):
diff --git a/scan_explorer_service/views/metadata.py b/scan_explorer_service/views/metadata.py
index c000ffb..5f75264 100644
--- a/scan_explorer_service/views/metadata.py
+++ b/scan_explorer_service/views/metadata.py
@@ -129,7 +129,6 @@ def article_search():
     """Search for an article using one or some of the available keywords"""
     try:
         qs, qs_dict, page, limit, sort = parse_query_args(request.args)
-        qs = qs.lower()
         current_app.logger.debug(f'qs: {qs}, qs_dict: {qs_dict}, page: {page}, limit: {limit}, sort: {sort}')
         result = aggregate_search(qs, EsFields.article_id, page, limit, sort)
         current_app.logger.debug(f'result: {result}')
@@ -159,7 +158,6 @@ def collection_search():
     """Search for a collection using one or some of the available keywords"""
     try:
         qs, qs_dict, page, limit, sort = parse_query_args(request.args)
-        qs = qs.lower()
         result = aggregate_search(qs, EsFields.volume_id, page, limit, sort)
         text_query = ''
         if SearchOptions.FullText.value in qs_dict.keys():
@@ -174,7 +172,6 @@ def page_search():
     """Search for a page using one or some of the available keywords"""
     try:
         qs, qs_dict, page, limit, sort = parse_query_args(request.args)
-        qs = qs.lower()
         result = page_os_search(qs, page, limit, sort)
         text_query = ''
         if SearchOptions.FullText.value in qs_dict.keys():

From 8eb7d8c5240e1e80db7277d87b504148e328017d Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Tue, 21 Jan 2025 18:35:55 -0500
Subject: [PATCH 23/38] changing search

---
 scan_explorer_service/open_search.py         |  7 +-
 scan_explorer_service/tests/test_metadata.py | 92 ++++++++++----------
 scan_explorer_service/utils/search_utils.py  |  2 +-
 3 files changed, 52 insertions(+), 49 deletions(-)

diff --git a/scan_explorer_service/open_search.py b/scan_explorer_service/open_search.py
index 1b6e855..6452072 100644
--- a/scan_explorer_service/open_search.py
+++ b/scan_explorer_service/open_search.py
@@ -4,15 +4,18 @@
 from scan_explorer_service.utils.search_utils import EsFields, OrderOptions
 
 def create_query_string_query(query_string: str):
+    
     query =  {
         "query": {
             "query_string": {
                 "query": query_string,
                 "fields": ["article_bibcodes", "journal", "volume_id_lowercase", "volume"],
-                "default_operator": "AND"
+                "default_operator": "AND", 
+                "lowercase_expanded_terms": True
             }
-        }
+        } 
     }
+
     current_app.logger.debug(f"query string: {query}")
     return query
 
diff --git a/scan_explorer_service/tests/test_metadata.py b/scan_explorer_service/tests/test_metadata.py
index 1bed5c2..f11ca2e 100644
--- a/scan_explorer_service/tests/test_metadata.py
+++ b/scan_explorer_service/tests/test_metadata.py
@@ -79,53 +79,53 @@ def setUp(self):
         self.open_search_article_nohit_response = {"hits":{"total":{"value":0,"relation":"eq"},"max_score":None,"hits":[]},"aggregations":{"total_count":{"value":0},"ids":{"doc_count_error_upper_bound":0,"sum_other_doc_count":0,"buckets":[]}}}
         self.open_search_ocr_response = {"hits":{"total":{"value":1,"relation":"eq"},"max_score":None,"hits":[{'_source':{'text':self.page_text}}]}}
 
-    @patch('opensearchpy.OpenSearch')
-    def test_get_article(self, OpenSearch):
-        es = OpenSearch.return_value
-        es.search.return_value = self.open_search_article_response
-
-        # Fetch     
-        url = url_for("metadata.article_search", q='bibcode:' + self.article.bibcode, page=1, limit = 10)
-        r = self.client.get(url)
-        expected_query = {'query': {'query_string': {'query': 'article_bibcodes_lowercase:1988ApJ...333..341R', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'article_bibcodes'}}, 'ids': {'terms': {'field': 'article_bibcodes', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
-        call_args, call_kwargs = es.search.call_args
-        self.assertEqual(expected_query, call_kwargs.get('body'))
-        self.assertStatus(r, 200)
-        expected_response = {"extra_collection_count": 0, "extra_page_count": 0,  "items": [{"bibcode": self.article.bibcode, "id": self.article.id, "pages": 3 }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
+    # @patch('opensearchpy.OpenSearch')
+    # def test_get_article(self, OpenSearch):
+    #     es = OpenSearch.return_value
+    #     es.search.return_value = self.open_search_article_response
+
+    #     # Fetch     
+    #     url = url_for("metadata.article_search", q='bibcode:' + self.article.bibcode, page=1, limit = 10)
+    #     r = self.client.get(url)
+    #     expected_query = {'query': {'query_string': {'query': 'article_bibcodes_lowercase:1988ApJ...333..341R', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'article_bibcodes'}}, 'ids': {'terms': {'field': 'article_bibcodes', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
+    #     call_args, call_kwargs = es.search.call_args
+    #     self.assertEqual(expected_query, call_kwargs.get('body'))
+    #     self.assertStatus(r, 200)
+    #     expected_response = {"extra_collection_count": 0, "extra_page_count": 0,  "items": [{"bibcode": self.article.bibcode, "id": self.article.id, "pages": 3 }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
         
-        self.assertEqual(r.data, jsonify(expected_response).data)
-
-    @patch('opensearchpy.OpenSearch')
-    def test_get_collection(self, OpenSearch):
-        es = OpenSearch.return_value
-        es.search.return_value = self.open_search_volume_response
-
-        # Fetch     
-        url = url_for("metadata.collection_search", q='bibstem:' + self.collection.id, page=1, limit = 10)
-        r = self.client.get(url)
-        expected_query = {'query': {'query_string': {'query': 'journal:journalvolume', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'volume_id'}}, 'ids': {'terms': {'field': 'volume_id', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
-        call_args, call_kwargs = es.search.call_args
-        print(call_kwargs.get('body'))
-        self.assertEqual(expected_query, call_kwargs.get('body'))
-        self.assertStatus(r, 200)
-        expected_response = {"items": [{"id": self.collection.id ,"journal": "journ", "pages": 1, 'volume':'alvo' }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
-        self.assertEqual(r.data, jsonify(expected_response).data)
-
-    @patch('opensearchpy.OpenSearch')
-    def test_get_page(self, OpenSearch):
-        es = OpenSearch.return_value
-        es.search.return_value = self.open_search_page_response
-
-        # Fetch     
-        url = url_for("metadata.page_search", q='full:' + '"test text"', page=1, limit = 10)
-        r = self.client.get(url)
-        expected_query = {'query': {'query_string': {'query': 'text:"test text"', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, '_source': {'include': ['page_id', 'volume_id', 'page_label', 'page_number']}, 'size': 10, 'from': 0, 'track_total_hits': True, 'sort': [{'article_bibcodes': {'order': 'desc'}}, {'page_number': {'order': 'asc'}}]}
-        call_args, call_kwargs = es.search.call_args
-        self.assertEqual(expected_query, call_kwargs.get('body'))
-        self.assertStatus(r, 200)
-        expected_response = {"items": [{"id": self.page.id ,"journal": "journ", 'label': self.page.label, "volume_page_num": self.page.volume_running_page_num, 'volume':'alvo', 'collection_id': self.collection.id }], "limit": 10, "page": 1, "pageCount": 1, "query": "test text",  "total": 1}
-
-        self.assertEqual(str(r.data), str(jsonify(expected_response).data))
+    #     self.assertEqual(r.data, jsonify(expected_response).data)
+
+    # @patch('opensearchpy.OpenSearch')
+    # def test_get_collection(self, OpenSearch):
+    #     es = OpenSearch.return_value
+    #     es.search.return_value = self.open_search_volume_response
+
+    #     # Fetch     
+    #     url = url_for("metadata.collection_search", q='bibstem:' + self.collection.id, page=1, limit = 10)
+    #     r = self.client.get(url)
+    #     expected_query = {'query': {'query_string': {'query': 'journal:journalvolume', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'volume_id'}}, 'ids': {'terms': {'field': 'volume_id', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
+    #     call_args, call_kwargs = es.search.call_args
+    #     print(call_kwargs.get('body'))
+    #     self.assertEqual(expected_query, call_kwargs.get('body'))
+    #     self.assertStatus(r, 200)
+    #     expected_response = {"items": [{"id": self.collection.id ,"journal": "journ", "pages": 1, 'volume':'alvo' }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
+    #     self.assertEqual(r.data, jsonify(expected_response).data)
+
+    # @patch('opensearchpy.OpenSearch')
+    # def test_get_page(self, OpenSearch):
+    #     es = OpenSearch.return_value
+    #     es.search.return_value = self.open_search_page_response
+
+    #     # Fetch     
+    #     url = url_for("metadata.page_search", q='full:' + '"test text"', page=1, limit = 10)
+    #     r = self.client.get(url)
+    #     expected_query = {'query': {'query_string': {'query': 'text:"test text"', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, '_source': {'include': ['page_id', 'volume_id', 'page_label', 'page_number']}, 'size': 10, 'from': 0, 'track_total_hits': True, 'sort': [{'article_bibcodes': {'order': 'desc'}}, {'page_number': {'order': 'asc'}}]}
+    #     call_args, call_kwargs = es.search.call_args
+    #     self.assertEqual(expected_query, call_kwargs.get('body'))
+    #     self.assertStatus(r, 200)
+    #     expected_response = {"items": [{"id": self.page.id ,"journal": "journ", 'label': self.page.label, "volume_page_num": self.page.volume_running_page_num, 'volume':'alvo', 'collection_id': self.collection.id }], "limit": 10, "page": 1, "pageCount": 1, "query": "test text",  "total": 1}
+
+    #     self.assertEqual(str(r.data), str(jsonify(expected_response).data))
 
     def test_query_parsing_failures(self):
         url = url_for("metadata.article_search", q='')
diff --git a/scan_explorer_service/utils/search_utils.py b/scan_explorer_service/utils/search_utils.py
index 1279f08..3ee3065 100644
--- a/scan_explorer_service/utils/search_utils.py
+++ b/scan_explorer_service/utils/search_utils.py
@@ -86,7 +86,7 @@ def parse_query_string(qs):
         current_app.logger.debug(f'qs_only_free {qs_only_free}')
 
         if len(kv_arr) == 2:
-            qs_dict[kv_arr[0].lower()] = kv_arr[1].strip()
+            qs_dict[kv_arr[0].lower()] = kv_arr[1].lower().strip()
             #If the option have quotes we remove them from the free. Previous removal would than have failed
             alt_kv = kv_arr[0] + ':"' + kv_arr[1] + '"'
             qs_only_free = qs_only_free.replace(alt_kv, '')

From 79b72a22de8686f1458910c0aba2d80b761097c4 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Tue, 21 Jan 2025 18:48:57 -0500
Subject: [PATCH 24/38] saving keyword

---
 scan_explorer_service/open_search.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/scan_explorer_service/open_search.py b/scan_explorer_service/open_search.py
index 6452072..9149aff 100644
--- a/scan_explorer_service/open_search.py
+++ b/scan_explorer_service/open_search.py
@@ -11,7 +11,7 @@ def create_query_string_query(query_string: str):
                 "query": query_string,
                 "fields": ["article_bibcodes", "journal", "volume_id_lowercase", "volume"],
                 "default_operator": "AND", 
-                "lowercase_expanded_terms": True
+                "case_insensitive": True
             }
         } 
     }

From 5753bcf052b3fa9cbff50959bd9f358e1db2c022 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Wed, 22 Jan 2025 13:37:40 -0500
Subject: [PATCH 25/38] modifying search

---
 scan_explorer_service/open_search.py | 27 ++++++++++++++++++---------
 1 file changed, 18 insertions(+), 9 deletions(-)

diff --git a/scan_explorer_service/open_search.py b/scan_explorer_service/open_search.py
index 9149aff..433f43b 100644
--- a/scan_explorer_service/open_search.py
+++ b/scan_explorer_service/open_search.py
@@ -4,21 +4,30 @@
 from scan_explorer_service.utils.search_utils import EsFields, OrderOptions
 
 def create_query_string_query(query_string: str):
-    
-    query =  {
+    # Convert the query string to lowercase here if necessary
+    query_string = query_string.lower()
+
+    query = {
         "query": {
-            "query_string": {
-                "query": query_string,
-                "fields": ["article_bibcodes", "journal", "volume_id_lowercase", "volume"],
-                "default_operator": "AND", 
-                "case_insensitive": True
+            "bool": {
+                "must": {
+                    "multi_match": {
+                        "query": query_string,
+                        "fields": [
+                            "article_bibcodes", 
+                            "journal", 
+                            "volume_id_lowercase",  # Ensure this field is mapped to lowercase
+                            "volume"
+                        ],
+                        "operator": "and"  # Ensures all terms must be present in the document
+                    }
+                }
             }
-        } 
+        }
     }
 
     current_app.logger.debug(f"query string: {query}")
     return query
-
 def append_aggregate(query: dict, agg_field: EsFields, page: int, size: int, sort: OrderOptions):
     from_number = (page - 1) * size
     query['size'] = 0

From 83abdb73bb9a8e05aca8031275e72c8f1dc44d98 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Wed, 22 Jan 2025 14:57:47 -0500
Subject: [PATCH 26/38] removing lowercase

---
 scan_explorer_service/utils/search_utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/scan_explorer_service/utils/search_utils.py b/scan_explorer_service/utils/search_utils.py
index 3ee3065..1279f08 100644
--- a/scan_explorer_service/utils/search_utils.py
+++ b/scan_explorer_service/utils/search_utils.py
@@ -86,7 +86,7 @@ def parse_query_string(qs):
         current_app.logger.debug(f'qs_only_free {qs_only_free}')
 
         if len(kv_arr) == 2:
-            qs_dict[kv_arr[0].lower()] = kv_arr[1].lower().strip()
+            qs_dict[kv_arr[0].lower()] = kv_arr[1].strip()
             #If the option have quotes we remove them from the free. Previous removal would than have failed
             alt_kv = kv_arr[0] + ':"' + kv_arr[1] + '"'
             qs_only_free = qs_only_free.replace(alt_kv, '')

From 092ec079104775ef5f953ad6f3af3368909dab75 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Wed, 22 Jan 2025 15:13:34 -0500
Subject: [PATCH 27/38] removing search changes

---
 scan_explorer_service/open_search.py         | 26 ++----
 scan_explorer_service/tests/test_metadata.py | 92 ++++++++++----------
 2 files changed, 54 insertions(+), 64 deletions(-)

diff --git a/scan_explorer_service/open_search.py b/scan_explorer_service/open_search.py
index 433f43b..ba28b48 100644
--- a/scan_explorer_service/open_search.py
+++ b/scan_explorer_service/open_search.py
@@ -4,30 +4,20 @@
 from scan_explorer_service.utils.search_utils import EsFields, OrderOptions
 
 def create_query_string_query(query_string: str):
-    # Convert the query string to lowercase here if necessary
-    query_string = query_string.lower()
-
-    query = {
+    
+    query =  {
         "query": {
-            "bool": {
-                "must": {
-                    "multi_match": {
-                        "query": query_string,
-                        "fields": [
-                            "article_bibcodes", 
-                            "journal", 
-                            "volume_id_lowercase",  # Ensure this field is mapped to lowercase
-                            "volume"
-                        ],
-                        "operator": "and"  # Ensures all terms must be present in the document
-                    }
-                }
+            "query_string": {
+                "query": query_string,
+                "fields": ["article_bibcodes", "journal", "volume_id_lowercase", "volume"],
+                "default_operator": "AND"
             }
-        }
+        } 
     }
 
     current_app.logger.debug(f"query string: {query}")
     return query
+
 def append_aggregate(query: dict, agg_field: EsFields, page: int, size: int, sort: OrderOptions):
     from_number = (page - 1) * size
     query['size'] = 0
diff --git a/scan_explorer_service/tests/test_metadata.py b/scan_explorer_service/tests/test_metadata.py
index f11ca2e..1bed5c2 100644
--- a/scan_explorer_service/tests/test_metadata.py
+++ b/scan_explorer_service/tests/test_metadata.py
@@ -79,53 +79,53 @@ def setUp(self):
         self.open_search_article_nohit_response = {"hits":{"total":{"value":0,"relation":"eq"},"max_score":None,"hits":[]},"aggregations":{"total_count":{"value":0},"ids":{"doc_count_error_upper_bound":0,"sum_other_doc_count":0,"buckets":[]}}}
         self.open_search_ocr_response = {"hits":{"total":{"value":1,"relation":"eq"},"max_score":None,"hits":[{'_source':{'text':self.page_text}}]}}
 
-    # @patch('opensearchpy.OpenSearch')
-    # def test_get_article(self, OpenSearch):
-    #     es = OpenSearch.return_value
-    #     es.search.return_value = self.open_search_article_response
-
-    #     # Fetch     
-    #     url = url_for("metadata.article_search", q='bibcode:' + self.article.bibcode, page=1, limit = 10)
-    #     r = self.client.get(url)
-    #     expected_query = {'query': {'query_string': {'query': 'article_bibcodes_lowercase:1988ApJ...333..341R', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'article_bibcodes'}}, 'ids': {'terms': {'field': 'article_bibcodes', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
-    #     call_args, call_kwargs = es.search.call_args
-    #     self.assertEqual(expected_query, call_kwargs.get('body'))
-    #     self.assertStatus(r, 200)
-    #     expected_response = {"extra_collection_count": 0, "extra_page_count": 0,  "items": [{"bibcode": self.article.bibcode, "id": self.article.id, "pages": 3 }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
+    @patch('opensearchpy.OpenSearch')
+    def test_get_article(self, OpenSearch):
+        es = OpenSearch.return_value
+        es.search.return_value = self.open_search_article_response
+
+        # Fetch     
+        url = url_for("metadata.article_search", q='bibcode:' + self.article.bibcode, page=1, limit = 10)
+        r = self.client.get(url)
+        expected_query = {'query': {'query_string': {'query': 'article_bibcodes_lowercase:1988ApJ...333..341R', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'article_bibcodes'}}, 'ids': {'terms': {'field': 'article_bibcodes', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
+        call_args, call_kwargs = es.search.call_args
+        self.assertEqual(expected_query, call_kwargs.get('body'))
+        self.assertStatus(r, 200)
+        expected_response = {"extra_collection_count": 0, "extra_page_count": 0,  "items": [{"bibcode": self.article.bibcode, "id": self.article.id, "pages": 3 }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
         
-    #     self.assertEqual(r.data, jsonify(expected_response).data)
-
-    # @patch('opensearchpy.OpenSearch')
-    # def test_get_collection(self, OpenSearch):
-    #     es = OpenSearch.return_value
-    #     es.search.return_value = self.open_search_volume_response
-
-    #     # Fetch     
-    #     url = url_for("metadata.collection_search", q='bibstem:' + self.collection.id, page=1, limit = 10)
-    #     r = self.client.get(url)
-    #     expected_query = {'query': {'query_string': {'query': 'journal:journalvolume', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'volume_id'}}, 'ids': {'terms': {'field': 'volume_id', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
-    #     call_args, call_kwargs = es.search.call_args
-    #     print(call_kwargs.get('body'))
-    #     self.assertEqual(expected_query, call_kwargs.get('body'))
-    #     self.assertStatus(r, 200)
-    #     expected_response = {"items": [{"id": self.collection.id ,"journal": "journ", "pages": 1, 'volume':'alvo' }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
-    #     self.assertEqual(r.data, jsonify(expected_response).data)
-
-    # @patch('opensearchpy.OpenSearch')
-    # def test_get_page(self, OpenSearch):
-    #     es = OpenSearch.return_value
-    #     es.search.return_value = self.open_search_page_response
-
-    #     # Fetch     
-    #     url = url_for("metadata.page_search", q='full:' + '"test text"', page=1, limit = 10)
-    #     r = self.client.get(url)
-    #     expected_query = {'query': {'query_string': {'query': 'text:"test text"', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, '_source': {'include': ['page_id', 'volume_id', 'page_label', 'page_number']}, 'size': 10, 'from': 0, 'track_total_hits': True, 'sort': [{'article_bibcodes': {'order': 'desc'}}, {'page_number': {'order': 'asc'}}]}
-    #     call_args, call_kwargs = es.search.call_args
-    #     self.assertEqual(expected_query, call_kwargs.get('body'))
-    #     self.assertStatus(r, 200)
-    #     expected_response = {"items": [{"id": self.page.id ,"journal": "journ", 'label': self.page.label, "volume_page_num": self.page.volume_running_page_num, 'volume':'alvo', 'collection_id': self.collection.id }], "limit": 10, "page": 1, "pageCount": 1, "query": "test text",  "total": 1}
-
-    #     self.assertEqual(str(r.data), str(jsonify(expected_response).data))
+        self.assertEqual(r.data, jsonify(expected_response).data)
+
+    @patch('opensearchpy.OpenSearch')
+    def test_get_collection(self, OpenSearch):
+        es = OpenSearch.return_value
+        es.search.return_value = self.open_search_volume_response
+
+        # Fetch     
+        url = url_for("metadata.collection_search", q='bibstem:' + self.collection.id, page=1, limit = 10)
+        r = self.client.get(url)
+        expected_query = {'query': {'query_string': {'query': 'journal:journalvolume', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'volume_id'}}, 'ids': {'terms': {'field': 'volume_id', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
+        call_args, call_kwargs = es.search.call_args
+        print(call_kwargs.get('body'))
+        self.assertEqual(expected_query, call_kwargs.get('body'))
+        self.assertStatus(r, 200)
+        expected_response = {"items": [{"id": self.collection.id ,"journal": "journ", "pages": 1, 'volume':'alvo' }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
+        self.assertEqual(r.data, jsonify(expected_response).data)
+
+    @patch('opensearchpy.OpenSearch')
+    def test_get_page(self, OpenSearch):
+        es = OpenSearch.return_value
+        es.search.return_value = self.open_search_page_response
+
+        # Fetch     
+        url = url_for("metadata.page_search", q='full:' + '"test text"', page=1, limit = 10)
+        r = self.client.get(url)
+        expected_query = {'query': {'query_string': {'query': 'text:"test text"', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, '_source': {'include': ['page_id', 'volume_id', 'page_label', 'page_number']}, 'size': 10, 'from': 0, 'track_total_hits': True, 'sort': [{'article_bibcodes': {'order': 'desc'}}, {'page_number': {'order': 'asc'}}]}
+        call_args, call_kwargs = es.search.call_args
+        self.assertEqual(expected_query, call_kwargs.get('body'))
+        self.assertStatus(r, 200)
+        expected_response = {"items": [{"id": self.page.id ,"journal": "journ", 'label': self.page.label, "volume_page_num": self.page.volume_running_page_num, 'volume':'alvo', 'collection_id': self.collection.id }], "limit": 10, "page": 1, "pageCount": 1, "query": "test text",  "total": 1}
+
+        self.assertEqual(str(r.data), str(jsonify(expected_response).data))
 
     def test_query_parsing_failures(self):
         url = url_for("metadata.article_search", q='')

From dd42e73116023b8fe59e09711ab7c62b3049f02c Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Wed, 22 Jan 2025 15:33:28 -0500
Subject: [PATCH 28/38] adding match

---
 scan_explorer_service/open_search.py         | 24 +++--
 scan_explorer_service/tests/test_metadata.py | 92 ++++++++++----------
 2 files changed, 62 insertions(+), 54 deletions(-)

diff --git a/scan_explorer_service/open_search.py b/scan_explorer_service/open_search.py
index ba28b48..371b343 100644
--- a/scan_explorer_service/open_search.py
+++ b/scan_explorer_service/open_search.py
@@ -4,20 +4,28 @@
 from scan_explorer_service.utils.search_utils import EsFields, OrderOptions
 
 def create_query_string_query(query_string: str):
-    
-    query =  {
+
+    query = {
         "query": {
-            "query_string": {
-                "query": query_string,
-                "fields": ["article_bibcodes", "journal", "volume_id_lowercase", "volume"],
-                "default_operator": "AND"
+            "bool": {
+                "must": {
+                    "multi_match": {
+                        "query": query_string,
+                        "fields": [
+                            "article_bibcodes", 
+                            "journal", 
+                            "volume_id_lowercase",  # Ensure this field is mapped to lowercase
+                            "volume"
+                        ],
+                        "operator": "and"  # Ensures all terms must be present in the document
+                    }
+                }
             }
-        } 
+        }
     }
 
     current_app.logger.debug(f"query string: {query}")
     return query
-
 def append_aggregate(query: dict, agg_field: EsFields, page: int, size: int, sort: OrderOptions):
     from_number = (page - 1) * size
     query['size'] = 0
diff --git a/scan_explorer_service/tests/test_metadata.py b/scan_explorer_service/tests/test_metadata.py
index 1bed5c2..f11ca2e 100644
--- a/scan_explorer_service/tests/test_metadata.py
+++ b/scan_explorer_service/tests/test_metadata.py
@@ -79,53 +79,53 @@ def setUp(self):
         self.open_search_article_nohit_response = {"hits":{"total":{"value":0,"relation":"eq"},"max_score":None,"hits":[]},"aggregations":{"total_count":{"value":0},"ids":{"doc_count_error_upper_bound":0,"sum_other_doc_count":0,"buckets":[]}}}
         self.open_search_ocr_response = {"hits":{"total":{"value":1,"relation":"eq"},"max_score":None,"hits":[{'_source':{'text':self.page_text}}]}}
 
-    @patch('opensearchpy.OpenSearch')
-    def test_get_article(self, OpenSearch):
-        es = OpenSearch.return_value
-        es.search.return_value = self.open_search_article_response
-
-        # Fetch     
-        url = url_for("metadata.article_search", q='bibcode:' + self.article.bibcode, page=1, limit = 10)
-        r = self.client.get(url)
-        expected_query = {'query': {'query_string': {'query': 'article_bibcodes_lowercase:1988ApJ...333..341R', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'article_bibcodes'}}, 'ids': {'terms': {'field': 'article_bibcodes', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
-        call_args, call_kwargs = es.search.call_args
-        self.assertEqual(expected_query, call_kwargs.get('body'))
-        self.assertStatus(r, 200)
-        expected_response = {"extra_collection_count": 0, "extra_page_count": 0,  "items": [{"bibcode": self.article.bibcode, "id": self.article.id, "pages": 3 }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
+    # @patch('opensearchpy.OpenSearch')
+    # def test_get_article(self, OpenSearch):
+    #     es = OpenSearch.return_value
+    #     es.search.return_value = self.open_search_article_response
+
+    #     # Fetch     
+    #     url = url_for("metadata.article_search", q='bibcode:' + self.article.bibcode, page=1, limit = 10)
+    #     r = self.client.get(url)
+    #     expected_query = {'query': {'query_string': {'query': 'article_bibcodes_lowercase:1988ApJ...333..341R', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'article_bibcodes'}}, 'ids': {'terms': {'field': 'article_bibcodes', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
+    #     call_args, call_kwargs = es.search.call_args
+    #     self.assertEqual(expected_query, call_kwargs.get('body'))
+    #     self.assertStatus(r, 200)
+    #     expected_response = {"extra_collection_count": 0, "extra_page_count": 0,  "items": [{"bibcode": self.article.bibcode, "id": self.article.id, "pages": 3 }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
         
-        self.assertEqual(r.data, jsonify(expected_response).data)
-
-    @patch('opensearchpy.OpenSearch')
-    def test_get_collection(self, OpenSearch):
-        es = OpenSearch.return_value
-        es.search.return_value = self.open_search_volume_response
-
-        # Fetch     
-        url = url_for("metadata.collection_search", q='bibstem:' + self.collection.id, page=1, limit = 10)
-        r = self.client.get(url)
-        expected_query = {'query': {'query_string': {'query': 'journal:journalvolume', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'volume_id'}}, 'ids': {'terms': {'field': 'volume_id', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
-        call_args, call_kwargs = es.search.call_args
-        print(call_kwargs.get('body'))
-        self.assertEqual(expected_query, call_kwargs.get('body'))
-        self.assertStatus(r, 200)
-        expected_response = {"items": [{"id": self.collection.id ,"journal": "journ", "pages": 1, 'volume':'alvo' }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
-        self.assertEqual(r.data, jsonify(expected_response).data)
-
-    @patch('opensearchpy.OpenSearch')
-    def test_get_page(self, OpenSearch):
-        es = OpenSearch.return_value
-        es.search.return_value = self.open_search_page_response
-
-        # Fetch     
-        url = url_for("metadata.page_search", q='full:' + '"test text"', page=1, limit = 10)
-        r = self.client.get(url)
-        expected_query = {'query': {'query_string': {'query': 'text:"test text"', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, '_source': {'include': ['page_id', 'volume_id', 'page_label', 'page_number']}, 'size': 10, 'from': 0, 'track_total_hits': True, 'sort': [{'article_bibcodes': {'order': 'desc'}}, {'page_number': {'order': 'asc'}}]}
-        call_args, call_kwargs = es.search.call_args
-        self.assertEqual(expected_query, call_kwargs.get('body'))
-        self.assertStatus(r, 200)
-        expected_response = {"items": [{"id": self.page.id ,"journal": "journ", 'label': self.page.label, "volume_page_num": self.page.volume_running_page_num, 'volume':'alvo', 'collection_id': self.collection.id }], "limit": 10, "page": 1, "pageCount": 1, "query": "test text",  "total": 1}
-
-        self.assertEqual(str(r.data), str(jsonify(expected_response).data))
+    #     self.assertEqual(r.data, jsonify(expected_response).data)
+
+    # @patch('opensearchpy.OpenSearch')
+    # def test_get_collection(self, OpenSearch):
+    #     es = OpenSearch.return_value
+    #     es.search.return_value = self.open_search_volume_response
+
+    #     # Fetch     
+    #     url = url_for("metadata.collection_search", q='bibstem:' + self.collection.id, page=1, limit = 10)
+    #     r = self.client.get(url)
+    #     expected_query = {'query': {'query_string': {'query': 'journal:journalvolume', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'volume_id'}}, 'ids': {'terms': {'field': 'volume_id', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
+    #     call_args, call_kwargs = es.search.call_args
+    #     print(call_kwargs.get('body'))
+    #     self.assertEqual(expected_query, call_kwargs.get('body'))
+    #     self.assertStatus(r, 200)
+    #     expected_response = {"items": [{"id": self.collection.id ,"journal": "journ", "pages": 1, 'volume':'alvo' }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
+    #     self.assertEqual(r.data, jsonify(expected_response).data)
+
+    # @patch('opensearchpy.OpenSearch')
+    # def test_get_page(self, OpenSearch):
+    #     es = OpenSearch.return_value
+    #     es.search.return_value = self.open_search_page_response
+
+    #     # Fetch     
+    #     url = url_for("metadata.page_search", q='full:' + '"test text"', page=1, limit = 10)
+    #     r = self.client.get(url)
+    #     expected_query = {'query': {'query_string': {'query': 'text:"test text"', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, '_source': {'include': ['page_id', 'volume_id', 'page_label', 'page_number']}, 'size': 10, 'from': 0, 'track_total_hits': True, 'sort': [{'article_bibcodes': {'order': 'desc'}}, {'page_number': {'order': 'asc'}}]}
+    #     call_args, call_kwargs = es.search.call_args
+    #     self.assertEqual(expected_query, call_kwargs.get('body'))
+    #     self.assertStatus(r, 200)
+    #     expected_response = {"items": [{"id": self.page.id ,"journal": "journ", 'label': self.page.label, "volume_page_num": self.page.volume_running_page_num, 'volume':'alvo', 'collection_id': self.collection.id }], "limit": 10, "page": 1, "pageCount": 1, "query": "test text",  "total": 1}
+
+    #     self.assertEqual(str(r.data), str(jsonify(expected_response).data))
 
     def test_query_parsing_failures(self):
         url = url_for("metadata.article_search", q='')

From 3e96cfd94329d976cfa3b5006c08badffb0c0550 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Wed, 22 Jan 2025 16:04:50 -0500
Subject: [PATCH 29/38] removing search changes

---
 scan_explorer_service/open_search.py         | 24 ++---
 scan_explorer_service/tests/test_metadata.py | 92 ++++++++++----------
 2 files changed, 54 insertions(+), 62 deletions(-)

diff --git a/scan_explorer_service/open_search.py b/scan_explorer_service/open_search.py
index 371b343..ba28b48 100644
--- a/scan_explorer_service/open_search.py
+++ b/scan_explorer_service/open_search.py
@@ -4,28 +4,20 @@
 from scan_explorer_service.utils.search_utils import EsFields, OrderOptions
 
 def create_query_string_query(query_string: str):
-
-    query = {
+    
+    query =  {
         "query": {
-            "bool": {
-                "must": {
-                    "multi_match": {
-                        "query": query_string,
-                        "fields": [
-                            "article_bibcodes", 
-                            "journal", 
-                            "volume_id_lowercase",  # Ensure this field is mapped to lowercase
-                            "volume"
-                        ],
-                        "operator": "and"  # Ensures all terms must be present in the document
-                    }
-                }
+            "query_string": {
+                "query": query_string,
+                "fields": ["article_bibcodes", "journal", "volume_id_lowercase", "volume"],
+                "default_operator": "AND"
             }
-        }
+        } 
     }
 
     current_app.logger.debug(f"query string: {query}")
     return query
+
 def append_aggregate(query: dict, agg_field: EsFields, page: int, size: int, sort: OrderOptions):
     from_number = (page - 1) * size
     query['size'] = 0
diff --git a/scan_explorer_service/tests/test_metadata.py b/scan_explorer_service/tests/test_metadata.py
index f11ca2e..1bed5c2 100644
--- a/scan_explorer_service/tests/test_metadata.py
+++ b/scan_explorer_service/tests/test_metadata.py
@@ -79,53 +79,53 @@ def setUp(self):
         self.open_search_article_nohit_response = {"hits":{"total":{"value":0,"relation":"eq"},"max_score":None,"hits":[]},"aggregations":{"total_count":{"value":0},"ids":{"doc_count_error_upper_bound":0,"sum_other_doc_count":0,"buckets":[]}}}
         self.open_search_ocr_response = {"hits":{"total":{"value":1,"relation":"eq"},"max_score":None,"hits":[{'_source':{'text':self.page_text}}]}}
 
-    # @patch('opensearchpy.OpenSearch')
-    # def test_get_article(self, OpenSearch):
-    #     es = OpenSearch.return_value
-    #     es.search.return_value = self.open_search_article_response
-
-    #     # Fetch     
-    #     url = url_for("metadata.article_search", q='bibcode:' + self.article.bibcode, page=1, limit = 10)
-    #     r = self.client.get(url)
-    #     expected_query = {'query': {'query_string': {'query': 'article_bibcodes_lowercase:1988ApJ...333..341R', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'article_bibcodes'}}, 'ids': {'terms': {'field': 'article_bibcodes', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
-    #     call_args, call_kwargs = es.search.call_args
-    #     self.assertEqual(expected_query, call_kwargs.get('body'))
-    #     self.assertStatus(r, 200)
-    #     expected_response = {"extra_collection_count": 0, "extra_page_count": 0,  "items": [{"bibcode": self.article.bibcode, "id": self.article.id, "pages": 3 }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
+    @patch('opensearchpy.OpenSearch')
+    def test_get_article(self, OpenSearch):
+        es = OpenSearch.return_value
+        es.search.return_value = self.open_search_article_response
+
+        # Fetch     
+        url = url_for("metadata.article_search", q='bibcode:' + self.article.bibcode, page=1, limit = 10)
+        r = self.client.get(url)
+        expected_query = {'query': {'query_string': {'query': 'article_bibcodes_lowercase:1988ApJ...333..341R', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'article_bibcodes'}}, 'ids': {'terms': {'field': 'article_bibcodes', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
+        call_args, call_kwargs = es.search.call_args
+        self.assertEqual(expected_query, call_kwargs.get('body'))
+        self.assertStatus(r, 200)
+        expected_response = {"extra_collection_count": 0, "extra_page_count": 0,  "items": [{"bibcode": self.article.bibcode, "id": self.article.id, "pages": 3 }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
         
-    #     self.assertEqual(r.data, jsonify(expected_response).data)
-
-    # @patch('opensearchpy.OpenSearch')
-    # def test_get_collection(self, OpenSearch):
-    #     es = OpenSearch.return_value
-    #     es.search.return_value = self.open_search_volume_response
-
-    #     # Fetch     
-    #     url = url_for("metadata.collection_search", q='bibstem:' + self.collection.id, page=1, limit = 10)
-    #     r = self.client.get(url)
-    #     expected_query = {'query': {'query_string': {'query': 'journal:journalvolume', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'volume_id'}}, 'ids': {'terms': {'field': 'volume_id', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
-    #     call_args, call_kwargs = es.search.call_args
-    #     print(call_kwargs.get('body'))
-    #     self.assertEqual(expected_query, call_kwargs.get('body'))
-    #     self.assertStatus(r, 200)
-    #     expected_response = {"items": [{"id": self.collection.id ,"journal": "journ", "pages": 1, 'volume':'alvo' }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
-    #     self.assertEqual(r.data, jsonify(expected_response).data)
-
-    # @patch('opensearchpy.OpenSearch')
-    # def test_get_page(self, OpenSearch):
-    #     es = OpenSearch.return_value
-    #     es.search.return_value = self.open_search_page_response
-
-    #     # Fetch     
-    #     url = url_for("metadata.page_search", q='full:' + '"test text"', page=1, limit = 10)
-    #     r = self.client.get(url)
-    #     expected_query = {'query': {'query_string': {'query': 'text:"test text"', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, '_source': {'include': ['page_id', 'volume_id', 'page_label', 'page_number']}, 'size': 10, 'from': 0, 'track_total_hits': True, 'sort': [{'article_bibcodes': {'order': 'desc'}}, {'page_number': {'order': 'asc'}}]}
-    #     call_args, call_kwargs = es.search.call_args
-    #     self.assertEqual(expected_query, call_kwargs.get('body'))
-    #     self.assertStatus(r, 200)
-    #     expected_response = {"items": [{"id": self.page.id ,"journal": "journ", 'label': self.page.label, "volume_page_num": self.page.volume_running_page_num, 'volume':'alvo', 'collection_id': self.collection.id }], "limit": 10, "page": 1, "pageCount": 1, "query": "test text",  "total": 1}
-
-    #     self.assertEqual(str(r.data), str(jsonify(expected_response).data))
+        self.assertEqual(r.data, jsonify(expected_response).data)
+
+    @patch('opensearchpy.OpenSearch')
+    def test_get_collection(self, OpenSearch):
+        es = OpenSearch.return_value
+        es.search.return_value = self.open_search_volume_response
+
+        # Fetch     
+        url = url_for("metadata.collection_search", q='bibstem:' + self.collection.id, page=1, limit = 10)
+        r = self.client.get(url)
+        expected_query = {'query': {'query_string': {'query': 'journal:journalvolume', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, 'size': 0, 'aggs': {'total_count': {'cardinality': {'field': 'volume_id'}}, 'ids': {'terms': {'field': 'volume_id', 'size': 10000}, 'aggs': {'bucket_sort': {'bucket_sort': {'sort': [{'_key': {'order': 'desc'}}], 'size': 10, 'from': 0}}}}}}
+        call_args, call_kwargs = es.search.call_args
+        print(call_kwargs.get('body'))
+        self.assertEqual(expected_query, call_kwargs.get('body'))
+        self.assertStatus(r, 200)
+        expected_response = {"items": [{"id": self.collection.id ,"journal": "journ", "pages": 1, 'volume':'alvo' }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
+        self.assertEqual(r.data, jsonify(expected_response).data)
+
+    @patch('opensearchpy.OpenSearch')
+    def test_get_page(self, OpenSearch):
+        es = OpenSearch.return_value
+        es.search.return_value = self.open_search_page_response
+
+        # Fetch     
+        url = url_for("metadata.page_search", q='full:' + '"test text"', page=1, limit = 10)
+        r = self.client.get(url)
+        expected_query = {'query': {'query_string': {'query': 'text:"test text"', 'fields': ['article_bibcodes', 'journal', 'volume_id_lowercase', 'volume'], 'default_operator': 'AND'}}, '_source': {'include': ['page_id', 'volume_id', 'page_label', 'page_number']}, 'size': 10, 'from': 0, 'track_total_hits': True, 'sort': [{'article_bibcodes': {'order': 'desc'}}, {'page_number': {'order': 'asc'}}]}
+        call_args, call_kwargs = es.search.call_args
+        self.assertEqual(expected_query, call_kwargs.get('body'))
+        self.assertStatus(r, 200)
+        expected_response = {"items": [{"id": self.page.id ,"journal": "journ", 'label': self.page.label, "volume_page_num": self.page.volume_running_page_num, 'volume':'alvo', 'collection_id': self.collection.id }], "limit": 10, "page": 1, "pageCount": 1, "query": "test text",  "total": 1}
+
+        self.assertEqual(str(r.data), str(jsonify(expected_response).data))
 
     def test_query_parsing_failures(self):
         url = url_for("metadata.article_search", q='')

From ca3d16d754bd55fd0a6ff95f7d4a374aed69f5e6 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Tue, 11 Feb 2025 14:34:06 -0500
Subject: [PATCH 30/38] adding logs to debug metadata

---
 scan_explorer_service/views/metadata.py | 11 ++++++++---
 1 file changed, 8 insertions(+), 3 deletions(-)

diff --git a/scan_explorer_service/views/metadata.py b/scan_explorer_service/views/metadata.py
index 5f75264..6c4d805 100644
--- a/scan_explorer_service/views/metadata.py
+++ b/scan_explorer_service/views/metadata.py
@@ -15,18 +15,23 @@
 @bp_metadata.route('/article/extra/<string:bibcode>', methods=['GET'])
 def article_extra(bibcode: str):
     """Route that fetches additional metadata about an article from the ADS search service """
-
+    current_app.logger.debug('Getting article metadata...') 
 
     auth_token = current_app.config.get('ADS_SEARCH_SERVICE_TOKEN')
+    current_app.logger.debug(f'auth_token: {auth_token}')
     ads_search_service = current_app.config.get('ADS_SEARCH_SERVICE_URL')
+    current_app.logger.debug(f'ads_search_service: {auth_token}') 
     
     if auth_token and ads_search_service:
         try:
-            params = {'q': f'bibcode:{bibcode}', 'fl':'title,author'}   
+            params = {'q': f'bibcode:{bibcode}', 'fl':'title,author'} 
+            current_app.logger.debug(f'Params: {params}')   
             headers = {'Authorization': f'Bearer {auth_token}'}
+            current_app.logger.debug(f'Headers: {headers}')   
             response = requests.get(ads_search_service, params, headers=headers).json()
+            current_app.logger.debug(f'Response: {response}')  
             docs = response.get('response').get('docs')
-
+            current_app.logger.debug(f'Docs: {docs}') 
             if docs:
                 return docs[0]
         except:

From 50a5e72fc477a6a28be260760e78823a4c2236f4 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Wed, 12 Feb 2025 12:53:12 -0500
Subject: [PATCH 31/38] adding new return message

---
 scan_explorer_service/views/metadata.py | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/scan_explorer_service/views/metadata.py b/scan_explorer_service/views/metadata.py
index 6c4d805..4757338 100644
--- a/scan_explorer_service/views/metadata.py
+++ b/scan_explorer_service/views/metadata.py
@@ -30,10 +30,17 @@ def article_extra(bibcode: str):
             current_app.logger.debug(f'Headers: {headers}')   
             response = requests.get(ads_search_service, params, headers=headers).json()
             current_app.logger.debug(f'Response: {response}')  
+            
+
+            if response.status_code == 429: 
+                return jsonify(message='Rate limit exceeded', error=response), 429
+            
             docs = response.get('response').get('docs')
             current_app.logger.debug(f'Docs: {docs}') 
             if docs:
                 return docs[0]
+            else: 
+                return jsonify(message='No article found'), 404
         except:
             return jsonify(message='Failed to retrieve external ADS article metadata'), 500
         

From a67d9672aea190d30d249e24e8bf8b2e70918138 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Tue, 4 Mar 2025 14:14:07 -0500
Subject: [PATCH 32/38] adding more logs

---
 scan_explorer_service/views/metadata.py | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/scan_explorer_service/views/metadata.py b/scan_explorer_service/views/metadata.py
index 4757338..5553d35 100644
--- a/scan_explorer_service/views/metadata.py
+++ b/scan_explorer_service/views/metadata.py
@@ -31,20 +31,23 @@ def article_extra(bibcode: str):
             response = requests.get(ads_search_service, params, headers=headers).json()
             current_app.logger.debug(f'Response: {response}')  
             
-
             if response.status_code == 429: 
+                current_app.logger.error(f'Rate limit exceeded') 
                 return jsonify(message='Rate limit exceeded', error=response), 429
             
             docs = response.get('response').get('docs')
             current_app.logger.debug(f'Docs: {docs}') 
             if docs:
+                current_app.logger.debug(f'Doc found: {docs[0]}') 
                 return docs[0]
             else: 
+                current_app.logger.error(f'No article found') 
                 return jsonify(message='No article found'), 404
-        except:
+        except Exception as e:
+            current_app.logger.error(f'500 error: {e}') 
             return jsonify(message='Failed to retrieve external ADS article metadata'), 500
         
-        
+    current_app.logger.debug(f'Empty response block')     
     return {}
 
 @advertise(scopes=['api'], rate_limit=[300, 3600*24])

From 1d9d51f1e0d72894c9b8eb9ceb5790739e95bdd4 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Tue, 4 Mar 2025 14:28:54 -0500
Subject: [PATCH 33/38] fixing logs

---
 scan_explorer_service/views/metadata.py | 7 +------
 1 file changed, 1 insertion(+), 6 deletions(-)

diff --git a/scan_explorer_service/views/metadata.py b/scan_explorer_service/views/metadata.py
index 5553d35..2f96d1e 100644
--- a/scan_explorer_service/views/metadata.py
+++ b/scan_explorer_service/views/metadata.py
@@ -31,10 +31,6 @@ def article_extra(bibcode: str):
             response = requests.get(ads_search_service, params, headers=headers).json()
             current_app.logger.debug(f'Response: {response}')  
             
-            if response.status_code == 429: 
-                current_app.logger.error(f'Rate limit exceeded') 
-                return jsonify(message='Rate limit exceeded', error=response), 429
-            
             docs = response.get('response').get('docs')
             current_app.logger.debug(f'Docs: {docs}') 
             if docs:
@@ -46,8 +42,7 @@ def article_extra(bibcode: str):
         except Exception as e:
             current_app.logger.error(f'500 error: {e}') 
             return jsonify(message='Failed to retrieve external ADS article metadata'), 500
-        
-    current_app.logger.debug(f'Empty response block')     
+    
     return {}
 
 @advertise(scopes=['api'], rate_limit=[300, 3600*24])

From 31c1e32a6221a1e9625cab13f909b2a750086249 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Thu, 27 Mar 2025 11:09:08 -0400
Subject: [PATCH 34/38] removed unnecessary logs

---
 scan_explorer_service/manifest_factory.py   |  6 ---
 scan_explorer_service/models.py             |  5 --
 scan_explorer_service/open_search.py        |  4 --
 scan_explorer_service/tests/test_proxy.py   |  1 -
 scan_explorer_service/utils/db_utils.py     |  4 --
 scan_explorer_service/utils/s3_utils.py     |  6 +--
 scan_explorer_service/utils/search_utils.py | 13 -----
 scan_explorer_service/views/image_proxy.py  | 55 +--------------------
 scan_explorer_service/views/manifest.py     |  7 ---
 scan_explorer_service/views/metadata.py     | 18 +------
 10 files changed, 4 insertions(+), 115 deletions(-)

diff --git a/scan_explorer_service/manifest_factory.py b/scan_explorer_service/manifest_factory.py
index 73f6397..92f6ecb 100644
--- a/scan_explorer_service/manifest_factory.py
+++ b/scan_explorer_service/manifest_factory.py
@@ -22,7 +22,6 @@ def create_manifest(self, item: Union[Article, Collection]):
         for range in self.create_range(item):
             manifest.add_range(range)
 
-        current_app.logger.debug(f"Created manifest {manifest}")
         return manifest
 
     def create_sequence(self, item: Union[Article, Collection]):
@@ -30,7 +29,6 @@ def create_sequence(self, item: Union[Article, Collection]):
         for page in item.pages:
             sequence.add_canvas(self.get_or_create_canvas(page)) 
 
-        current_app.logger.debug(f"Sequence {sequence}")
         return sequence
 
     def create_range(self, item: Union[Article, Collection]):
@@ -41,13 +39,11 @@ def create_range(self, item: Union[Article, Collection]):
         for page in item.pages:
             range.add_canvas(self.get_or_create_canvas(page))
 
-        current_app.logger.debug(f"Range {[range]}")
         return [range]
 
     def get_canvas_dict(self) -> Dict[str, Canvas]:
         if not hasattr(self, 'canvas_dict'):
             self.canvas_dict = {}
-        current_app.logger.debug(f"Canvas dict {self.canvas_dict}")
         return self.canvas_dict
 
     def get_or_create_canvas(self, page: Page):
@@ -68,7 +64,6 @@ def get_or_create_canvas(self, page: Page):
         annotation.on = canvas.id
         canvas.add_annotation(annotation)
         canvas_dict[page.id] = canvas
-        current_app.logger.debug(f"Canvas {canvas}")
         return canvas
 
     def create_image_annotation(self, page: Page):
@@ -82,7 +77,6 @@ def create_image_annotation(self, page: Page):
         image.format = page.format
         image.height = page.height
         image.width = page.width
-        current_app.logger.debug(f"Annotation {annotation}")
         return annotation
 
     def add_search_service(self, manifest: Manifest, search_url: str):
diff --git a/scan_explorer_service/models.py b/scan_explorer_service/models.py
index 5590054..e0487bf 100644
--- a/scan_explorer_service/models.py
+++ b/scan_explorer_service/models.py
@@ -151,17 +151,14 @@ def __init__(self, **kwargs):
     @property
     def image_url(self):
         image_api_url = url_for_proxy('proxy.image_proxy', path=self.image_path)
-        current_app.logger.debug(f'image api url: {image_api_url}')
         return image_api_url
 
     @property
     def image_path(self):
         separator = current_app.config.get('IMAGE_API_SLASH_SUB', '%2F')
         image_path = separator.join(self.image_path_basic[0]) 
-        current_app.logger.debug(f'color type: {self.color_type}')
         if self.color_type != PageColor.BW:
             image_path += '.tif'
-        current_app.logger.debug(f'image path: {image_path}')
         return image_path 
     
     @property
@@ -170,7 +167,6 @@ def image_path_basic(self):
         image_path = [self.collection.type, self.collection.journal, self.collection.volume]
         image_path = [item.replace('.', '_') for item in image_path]
         image_path = ['bitmaps'] + image_path + ['600', self.name]
-        current_app.logger.debug(f'image path basic: {image_path}')
         if self.color_type != PageColor.BW:
             image_format = '.tif'
         return image_path, image_format
@@ -178,7 +174,6 @@ def image_path_basic(self):
     @property
     def thumbnail_url(self):
         url = f'{self.image_url}/square/480,480/0/{self.image_color_quality}.jpg'
-        current_app.logger.debug('thumbnail url: ' + url)
         return url
 
     @property
diff --git a/scan_explorer_service/open_search.py b/scan_explorer_service/open_search.py
index ba28b48..434344c 100644
--- a/scan_explorer_service/open_search.py
+++ b/scan_explorer_service/open_search.py
@@ -74,7 +74,6 @@ def append_highlight(query: dict):
 
 def es_search(query: dict) -> Iterator[str]:
     es = opensearchpy.OpenSearch(current_app.config.get('OPEN_SEARCH_URL'))
-    current_app.logger.debug(f"Query search: {query}")
     resp = es.search(index=current_app.config.get(
         'OPEN_SEARCH_INDEX'), body=query)
     return resp
@@ -150,9 +149,6 @@ def page_ocr_os_search(collection_id: str, page_number:int):
 def aggregate_search(qs: str, aggregate_field, page, limit, sort):
     qs = qs.replace("&", "+")
     query = create_query_string_query(qs)
-    current_app.logger.debug(f"query: {query}")
     query = append_aggregate(query, aggregate_field, page, limit, sort)
-    current_app.logger.debug(f"query with aggregate: {query}")
     es_result = es_search(query)
-    current_app.logger.debug(f"es_result: {es_result}")
     return es_result
\ No newline at end of file
diff --git a/scan_explorer_service/tests/test_proxy.py b/scan_explorer_service/tests/test_proxy.py
index fcc869a..052c15a 100644
--- a/scan_explorer_service/tests/test_proxy.py
+++ b/scan_explorer_service/tests/test_proxy.py
@@ -167,7 +167,6 @@ def test_fetch_object(self, mock_read_object_s3):
 
     @patch('scan_explorer_service.views.image_proxy.fetch_object')
     def test_pdf_save_success_article(self, mock_fetch_object):
-        # mock_read_object_s3.return_value = b'my_image_name'
         mock_fetch_object.return_value = b'my_image_name'
 
         data = {
diff --git a/scan_explorer_service/utils/db_utils.py b/scan_explorer_service/utils/db_utils.py
index 42c78e4..13d4d3e 100644
--- a/scan_explorer_service/utils/db_utils.py
+++ b/scan_explorer_service/utils/db_utils.py
@@ -80,22 +80,18 @@ def page_overwrite(session, page):
 def article_thumbnail(session, id):
     page = session.query(Page).join(Article, Page.articles).filter(
                 Article.id == id).order_by(Page.volume_running_page_num.asc()).first()
-    current_app.logger.debug(f'article thumbnail {page}')
     return page.thumbnail_url
 
 def collection_thumbnail(session, id):
     page = session.query(Page).filter(Page.collection_id == id).order_by(
         Page.volume_running_page_num.asc()).first()
-    current_app.logger.debug(f'collection thumbnail {page.thumbnail_url}')
     return page.thumbnail_url
 
 def page_thumbnail(session, id):
     page = session.query(Page).filter(Page.id == id).one()
-    current_app.logger.debug(f'page thumbnail {page.thumbnail_url}')
     return page.thumbnail_url
 
 def item_thumbnail(session, id, type):
-    current_app.logger.debug(f'Getting item thumbnail: id {id} type {type}')
     if type == 'page':
         return page_thumbnail(session, id)
     elif type == 'article':
diff --git a/scan_explorer_service/utils/s3_utils.py b/scan_explorer_service/utils/s3_utils.py
index c8a76f9..c32f257 100644
--- a/scan_explorer_service/utils/s3_utils.py
+++ b/scan_explorer_service/utils/s3_utils.py
@@ -24,20 +24,16 @@ def write_object_s3(self, file_bytes, object_name):
         try:
             response = self.bucket.put_object(Body=file_bytes, Key=object_name)
         except (ClientError, ParamValidationError) as e:
-            current_app.logger.info.exception(e)
+            current_app.logger.exception(f"Error writing object {object_name}: {str(e)}")
             raise e
         return response.e_tag
 
     def read_object_s3(self, object_name):
         try:
-            current_app.logger.debug(f"Attempting to download object: {object_name}")
             with io.BytesIO() as s3_obj:
                 self.bucket.download_fileobj(object_name, s3_obj)
-                current_app.logger.debug(f"Object downloaded successfully: {object_name}")
                 s3_obj.seek(0)
                 s3_file = s3_obj.read()
-                current_app.logger.debug(f"Read {len(s3_file)} bytes from object: {object_name}")
-                current_app.logger.debug(f"First 100 bytes of file content: {s3_file[:100]}")
                 return s3_file
         except Exception as e:
             current_app.logger.exception(f"Unexpected error reading object {object_name}: {str(e)}")
diff --git a/scan_explorer_service/utils/search_utils.py b/scan_explorer_service/utils/search_utils.py
index 1279f08..afc4290 100644
--- a/scan_explorer_service/utils/search_utils.py
+++ b/scan_explorer_service/utils/search_utils.py
@@ -55,44 +55,34 @@ class OrderOptions(str, enum.Enum):
 
 def parse_query_args(args):
     qs = re.sub(':\s*', ':', args.get('q', '', str))
-    current_app.logger.debug(f'qs {qs}')
 
     qs, qs_dict = parse_query_string(qs)
 
-    current_app.logger.debug(f'qs {qs}, qs_dict {qs_dict}')
 
 
     page = args.get('page', 1, int)
     limit = args.get('limit', 10, int)
     sort_raw = args.get('sort')
     sort = parse_sorting_option(sort_raw)
-    current_app.logger.debug(f'qs {qs}, qs_dict {qs_dict}, sort {sort}')
     return qs, qs_dict, page, limit, sort
 
 def parse_query_string(qs):
     qs_to_split = qs.replace('[', '"[').replace(']',']"')
-    current_app.logger.debug(f'qs to split {qs_to_split}')
     qs_arr = [q for q in shlex.split(qs_to_split) if ':' in q]
-    current_app.logger.debug(f'qs arr {qs_arr}')
     qs_dict = {}
     qs_only_free = qs
-    current_app.logger.debug(f'qs only free {qs_only_free}')
     
     for kv in qs_arr:
         kv_arr = kv.split(':', maxsplit=1)
-        current_app.logger.debug(f'kv_arr {kv_arr}')
         #Remove all parameter from the original search to be able to handle the free search
         qs_only_free = qs_only_free.replace(kv, "")
-        current_app.logger.debug(f'qs_only_free {qs_only_free}')
 
         if len(kv_arr) == 2:
             qs_dict[kv_arr[0].lower()] = kv_arr[1].strip()
             #If the option have quotes we remove them from the free. Previous removal would than have failed
             alt_kv = kv_arr[0] + ':"' + kv_arr[1] + '"'
             qs_only_free = qs_only_free.replace(alt_kv, '')
-            current_app.logger.debug(f'kv_arr == 2. alt_kv {alt_kv}, qs_only_free {qs_only_free}')
 
-    current_app.logger.debug(f'qs dict {qs_dict}')    
     check_query(qs_dict)
     #Adds a () around each free search to force OS to look for each individual entry against all default fields
     for parameter in re.split('\s+', qs_only_free):
@@ -106,7 +96,6 @@ def parse_query_string(qs):
         # To ensure only the strings after the colon are replaced and no partial replacements are made 
         insensitive_replace = re.compile(r'(?<=:)\b' + re.escape(qs_dict[key]) + r'\b', re.IGNORECASE)
         qs = insensitive_replace.sub(qs_dict[key], qs)
-    current_app.logger.debug(f'qs: {qs} and qs dict: {qs_dict}')    
     return qs, qs_dict
 
 def parse_sorting_option(sort_input: str):
@@ -146,14 +135,12 @@ def check_page_color(qs_dict: dict):
         page_color = qs_dict[SearchOptions.PageColor.value]
         valid_types = [p.name for p in PageColor]
         if page_color in valid_types:
-            current_app.logger.debug("Page color {page_color} is valid")
             return
         
         # Check lowercased and updated to cased
         for p in PageColor:
             if page_color.replace('"','').lower() == p.name.lower():
                 qs_dict[SearchOptions.PageColor.value] = p.name
-                current_app.logger.debug("Page color {qs_dict[SearchOptions.PageColor.value]} changed to {p.name}")
                 return
         raise Exception("%s is not a valid page color, %s is possible choices"% (page_color, str(valid_types)))
 
diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index ce15dc2..a2bcd9b 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -11,8 +11,6 @@
 from scan_explorer_service.utils.utils import url_for_proxy
 import re
 import io 
-import cProfile
-import pstats
 import sys
 
 bp_proxy = Blueprint('proxy', __name__, url_prefix='/image')
@@ -29,14 +27,8 @@ def image_proxy(path):
     req_headers['X-Forwarded-Path'] = current_app.config.get('PROXY_PREFIX').rstrip('/') + '/image'
 
     encoded_url = re.sub(r"[+&]", "%2B", req_url)
-    
-    current_app.logger.debug(f'req_url: {encoded_url}, params: {request.args}, headers: {req_headers}, data: {request.form}')
-
     r = requests.request(request.method, encoded_url, params=request.args, stream=True,
-                         headers=req_headers, allow_redirects=False, data=request.form)
-    
-    current_app.logger.debug(f"Response status code: {r.status_code}")
-    
+                         headers=req_headers, allow_redirects=False, data=request.form)      
     excluded_headers = ['content-encoding','content-length', 'transfer-encoding', 'connection']
     headers = [(name, value) for (name, value) in r.headers.items() if name.lower() not in excluded_headers]
 
@@ -53,23 +45,15 @@ def image_proxy_thumbnail():
     """Helper to generate the correct url for a thumbnail given an ID and type"""
     try:
         id = request.args.get('id').replace(" ", "+")
-        current_app.logger.debug(f'id {id}')
         type = request.args.get('type')
-        current_app.logger.debug(f'type {type}')
 
         with current_app.session_scope() as session:
-            thumbnail_path = item_thumbnail(session, id, type)
-            
-            current_app.logger.debug(f'thumbnail path {thumbnail_path}')
-            
+            thumbnail_path = item_thumbnail(session, id, type)              
             path = urlparse.urlparse(thumbnail_path).path
-            current_app.logger.debug(f'path {path}')
             
             remove = urlparse.urlparse(url_for_proxy('proxy.image_proxy', path='')).path
-            current_app.logger.debug(f'remove {remove}')
             
             path = path.replace(remove, '')
-            current_app.logger.debug(f'replace {path}')
             
             return image_proxy(path)
     except Exception as e:
@@ -81,10 +65,8 @@ def get_item(session, id):
                 session.query(Article).filter(Article.id == id).one_or_none()
                 or session.query(Collection).filter(Collection.id == id).one_or_none())
     if not item: 
-        current_app.logger.debug(f'Item with id {id} not found')
         raise Exception("ID: " + id + " not found")
     
-    current_app.logger.debug(f'Item retrieved successfully {item}')
     return item 
 
 
@@ -98,7 +80,6 @@ def get_pages(item, session, page_start, page_end, page_limit):
         query = session.query(Page).filter(Page.collection_id == item.id, 
             Page.volume_running_page_num >= page_start, 
             Page.volume_running_page_num <= page_end).order_by(Page.volume_running_page_num).limit(page_limit)
-    current_app.logger.info(f"Got pages {page_start}-{page_end}: {query}") 
     return query 
 
 
@@ -112,7 +93,6 @@ def fetch_images(session, item, page_start, page_end, page_limit, memory_limit):
         n_pages += 1
         
         current_app.logger.debug(f"Generating image for page: {n_pages}") 
-        current_app.logger.debug(f'Id: {page.id}, Volume_page: {page.volume_running_page_num}, memory: {memory_sum}')
         if n_pages > page_limit:
             break
         if memory_sum > memory_limit:
@@ -122,7 +102,6 @@ def fetch_images(session, item, page_start, page_end, page_limit, memory_limit):
         object_name = '/'.join(image_path)
         object_name += format
 
-        current_app.logger.debug(f"Image path: {object_name}")
         im_data = fetch_object(object_name, 'AWS_BUCKET_NAME_IMAGE')
         memory_sum += sys.getsizeof(im_data)
 
@@ -130,29 +109,21 @@ def fetch_images(session, item, page_start, page_end, page_limit, memory_limit):
 
 
 def fetch_object(object_name, bucket_name):
-    current_app.logger.debug(f"Using bucket: {bucket_name}")
     file_content = S3Provider(current_app.config, bucket_name).read_object_s3(object_name)
-    current_app.logger.debug(f"File content type: {type(file_content)}, length: {len(file_content) if file_content else 'None'}")
     if not file_content:
         current_app.logger.error(f"Failed to fetch content for {object_name}. File might be empty.")
         raise ValueError(f"File content is empty for {object_name}")
-    current_app.logger.debug(f"Successfully fetched object from S3 bucket: {object_name}")
    
     return file_content
 
 
 def fetch_article(item, memory_limit):
     try:
-        current_app.logger.debug(f"Item is an article: {item.id}")
-
         object_name = f'{item.id}.pdf'.lower()
-        current_app.logger.debug(f"object name: {object_name}")
 
         full_path = f'pdfs/{object_name}'
-        current_app.logger.debug(f"full path: {full_path}")
 
         file_content = fetch_object(full_path, 'AWS_BUCKET_NAME_PDF')
-        current_app.logger.debug(f"File content type in fetch_article: {type(file_content)}, length: {len(file_content) if file_content else 'None'}")
 
         if len(file_content) > memory_limit:
             current_app.logger.error(f"Memory limit reached: {len(file_content)} > {memory_limit}") 
@@ -173,8 +144,6 @@ def fetch_article(item, memory_limit):
 def generate_pdf(item, session, page_start, page_end, page_limit, memory_limit): 
     if isinstance(item, Article):
         response = fetch_article(item, memory_limit)
-        current_app.logger.debug(f"Item is an article")
-        current_app.logger.debug(f"response fetch article: {response}")
         if response:
             return response
         else:
@@ -189,38 +158,18 @@ def generate_pdf(item, session, page_start, page_end, page_limit, memory_limit):
 def pdf_save():
     """Generate a PDF from pages"""
     try:
-        profiler = cProfile.Profile()
-        profiler.enable()
-        
-
         id = request.args.get('id')
         page_start = request.args.get('page_start', 1, int)
         page_end = request.args.get('page_end', math.inf, int)
         memory_limit = current_app.config.get("IMAGE_PDF_MEMORY_LIMIT")
         page_limit = current_app.config.get("IMAGE_PDF_PAGE_LIMIT")
 
-        current_app.logger.debug(f"pdf ID: {id}, page_start: {page_start}, page_end: {page_end}, memory_limit: {memory_limit}, page_limit: {page_limit}")
-
         with current_app.session_scope() as session:
             
             item = get_item(session, id) 
             current_app.logger.debug(f"Item retrieved successfully: {item.id}")
 
             response = generate_pdf(item, session, page_start, page_end, page_limit, memory_limit)
-            current_app.logger.debug(f"Response pdf save: {response}")
-
-            profiler.disable()
-            
-            # Log the profiling information
-            log_buffer = io.StringIO()
-            profiler_stats = pstats.Stats(profiler, stream=log_buffer)
-            profiler_stats.strip_dirs().sort_stats('cumulative', 'calls').print_stats(20)
- 
-            formatted_stats = log_buffer.getvalue().splitlines()
-
-            current_app.logger.debug(f'==================Profiling information========================: \n')
-            for line in formatted_stats:
-                current_app.logger.debug(line)
 
             return response 
     except Exception as e:
diff --git a/scan_explorer_service/views/manifest.py b/scan_explorer_service/views/manifest.py
index 05152d7..c6c8170 100644
--- a/scan_explorer_service/views/manifest.py
+++ b/scan_explorer_service/views/manifest.py
@@ -18,7 +18,6 @@ def before_request():
     manifest_factory.set_base_prezi_uri(base_uri)
 
     image_proxy = url_for_proxy('proxy.image_proxy', path='')
-    current_app.logger.debug(f'image proxy {image_proxy}')
     manifest_factory.set_base_image_uri(image_proxy)
 
 
@@ -27,26 +26,20 @@ def before_request():
 def get_manifest(id: str):
     """ Creates an IIIF manifest from an article or Collection"""
 
-    current_app.logger.debug(f'id for manifest {id}')
     with current_app.session_scope() as session:
         item: Union[Article, Collection] = (
             session.query(Article).filter(Article.id == id).one_or_none()
             or session.query(Collection).filter(Collection.id == id).one_or_none())
 
         if item:
-            current_app.logger.debug(f'Item found for {id}. Creating manifest.')
             manifest = manifest_factory.create_manifest(item)
 
-            current_app.logger.debug(f'Manifest {manifest}')
-
             search_url = url_for_proxy('manifest.search', id=id)
-            current_app.logger.debug(f'Search url {search_url}')
 
             manifest_factory.add_search_service(manifest, search_url)
             
             return manifest.toJSON(top=True)
         else:
-            current_app.logger.debug(f'Manifest not found for {id}')
             return jsonify(exception='Article not found'), 404
 
 
diff --git a/scan_explorer_service/views/metadata.py b/scan_explorer_service/views/metadata.py
index 2f96d1e..c9aee23 100644
--- a/scan_explorer_service/views/metadata.py
+++ b/scan_explorer_service/views/metadata.py
@@ -15,32 +15,22 @@
 @bp_metadata.route('/article/extra/<string:bibcode>', methods=['GET'])
 def article_extra(bibcode: str):
     """Route that fetches additional metadata about an article from the ADS search service """
-    current_app.logger.debug('Getting article metadata...') 
 
     auth_token = current_app.config.get('ADS_SEARCH_SERVICE_TOKEN')
-    current_app.logger.debug(f'auth_token: {auth_token}')
     ads_search_service = current_app.config.get('ADS_SEARCH_SERVICE_URL')
-    current_app.logger.debug(f'ads_search_service: {auth_token}') 
     
     if auth_token and ads_search_service:
         try:
             params = {'q': f'bibcode:{bibcode}', 'fl':'title,author'} 
-            current_app.logger.debug(f'Params: {params}')   
             headers = {'Authorization': f'Bearer {auth_token}'}
-            current_app.logger.debug(f'Headers: {headers}')   
             response = requests.get(ads_search_service, params, headers=headers).json()
-            current_app.logger.debug(f'Response: {response}')  
             
             docs = response.get('response').get('docs')
-            current_app.logger.debug(f'Docs: {docs}') 
             if docs:
-                current_app.logger.debug(f'Doc found: {docs[0]}') 
                 return docs[0]
             else: 
-                current_app.logger.error(f'No article found') 
                 return jsonify(message='No article found'), 404
         except Exception as e:
-            current_app.logger.error(f'500 error: {e}') 
             return jsonify(message='Failed to retrieve external ADS article metadata'), 500
     
     return {}
@@ -139,26 +129,20 @@ def article_search():
     """Search for an article using one or some of the available keywords"""
     try:
         qs, qs_dict, page, limit, sort = parse_query_args(request.args)
-        current_app.logger.debug(f'qs: {qs}, qs_dict: {qs_dict}, page: {page}, limit: {limit}, sort: {sort}')
         result = aggregate_search(qs, EsFields.article_id, page, limit, sort)
-        current_app.logger.debug(f'result: {result}')
         text_query = ''
         if SearchOptions.FullText.value in qs_dict.keys():
             text_query = qs_dict[SearchOptions.FullText.value]
-            current_app.logger.debug(f'text_query: {text_query}')
 
         article_count = result['aggregations']['total_count']['value']
-        current_app.logger.debug(f'article_count: {article_count}')
 
         collection_count = page_count = 0
         if article_count == 0:
             collection_count = aggregate_search(qs, EsFields.volume_id, page, limit, sort)['aggregations']['total_count']['value']
-            current_app.logger.debug(f'collection_count: {collection_count}')
             page_count = page_os_search(qs, page, limit, sort)['hits']['total']['value']
-            current_app.logger.debug(f'page_count: {collection_count}')
         return jsonify(serialize_os_article_result(result, page, limit, text_query, collection_count, page_count))
     except Exception as e:
-        current_app.logger.error(f"An exception has occurred: {e}")
+        current_app.logger.exception(f"An exception has occurred: {e}")
         return jsonify(message=str(e), type=ApiErrors.SearchError.value), 400
 
 

From 818e1578118d3cfc9d0a81651326c075e1dd18e1 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Thu, 27 Mar 2025 11:13:50 -0400
Subject: [PATCH 35/38] removed stale imports

---
 scan_explorer_service/manifest_factory.py   | 1 -
 scan_explorer_service/utils/db_utils.py     | 1 -
 scan_explorer_service/utils/search_utils.py | 2 --
 3 files changed, 4 deletions(-)

diff --git a/scan_explorer_service/manifest_factory.py b/scan_explorer_service/manifest_factory.py
index 92f6ecb..371267d 100644
--- a/scan_explorer_service/manifest_factory.py
+++ b/scan_explorer_service/manifest_factory.py
@@ -3,7 +3,6 @@
 from scan_explorer_service.models import Article, Page, Collection
 from typing import Union
 from itertools import chain
-from flask import current_app
 
 class ManifestFactoryExtended(ManifestFactory):
     """ Extended manifest factory.
diff --git a/scan_explorer_service/utils/db_utils.py b/scan_explorer_service/utils/db_utils.py
index 13d4d3e..4894d34 100644
--- a/scan_explorer_service/utils/db_utils.py
+++ b/scan_explorer_service/utils/db_utils.py
@@ -1,6 +1,5 @@
 from sqlalchemy import or_
 from scan_explorer_service.models import Article, Collection, Page
-from flask import current_app
 
 
 def collection_exists(session, journal, volume):
diff --git a/scan_explorer_service/utils/search_utils.py b/scan_explorer_service/utils/search_utils.py
index afc4290..fa79be5 100644
--- a/scan_explorer_service/utils/search_utils.py
+++ b/scan_explorer_service/utils/search_utils.py
@@ -4,8 +4,6 @@
 import enum
 import re
 
-from flask import current_app
-
 class SearchOptions(enum.Enum):
     """Available Search Options"""
     Bibcode = 'bibcode'

From 795ecdd6156b6e46be8ed6dfd86c33d957f55fcd Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Mon, 21 Apr 2025 16:43:02 -0400
Subject: [PATCH 36/38] removing unnecessary spaces from manifest_factory

---
 scan_explorer_service/manifest_factory.py | 5 -----
 1 file changed, 5 deletions(-)

diff --git a/scan_explorer_service/manifest_factory.py b/scan_explorer_service/manifest_factory.py
index 371267d..6fa313e 100644
--- a/scan_explorer_service/manifest_factory.py
+++ b/scan_explorer_service/manifest_factory.py
@@ -14,20 +14,16 @@ class ManifestFactoryExtended(ManifestFactory):
     def create_manifest(self, item: Union[Article, Collection]):
         manifest = self.manifest(
             ident=f'{item.id}/manifest.json', label=item.id)
-        
         manifest.description = item.id
         manifest.add_sequence(self.create_sequence(item))
-        
         for range in self.create_range(item):
             manifest.add_range(range)
-
         return manifest
 
     def create_sequence(self, item: Union[Article, Collection]):
         sequence: Sequence = self.sequence()
         for page in item.pages:
             sequence.add_canvas(self.get_or_create_canvas(page)) 
-
         return sequence
 
     def create_range(self, item: Union[Article, Collection]):
@@ -37,7 +33,6 @@ def create_range(self, item: Union[Article, Collection]):
         range: Range = self.range(ident=item.bibcode, label=item.bibcode)
         for page in item.pages:
             range.add_canvas(self.get_or_create_canvas(page))
-
         return [range]
 
     def get_canvas_dict(self) -> Dict[str, Canvas]:

From 2045753f3e04c7a66bb1527c5377a21118308f24 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Mon, 21 Apr 2025 16:43:39 -0400
Subject: [PATCH 37/38] removing unnecessary spaces from manifest_factory

---
 scan_explorer_service/manifest_factory.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/scan_explorer_service/manifest_factory.py b/scan_explorer_service/manifest_factory.py
index 6fa313e..52584c1 100644
--- a/scan_explorer_service/manifest_factory.py
+++ b/scan_explorer_service/manifest_factory.py
@@ -58,6 +58,7 @@ def get_or_create_canvas(self, page: Page):
         annotation.on = canvas.id
         canvas.add_annotation(annotation)
         canvas_dict[page.id] = canvas
+        
         return canvas
 
     def create_image_annotation(self, page: Page):

From ae8589539190d6df308670982bd777f01e1dc307 Mon Sep 17 00:00:00 2001
From: femalves <fernandamalves@ufrn.edu.br>
Date: Mon, 21 Apr 2025 17:24:46 -0400
Subject: [PATCH 38/38] last fixes

---
 scan_explorer_service/manifest_factory.py    | 1 -
 scan_explorer_service/open_search.py         | 5 +----
 scan_explorer_service/tests/test_metadata.py | 1 -
 scan_explorer_service/utils/search_utils.py  | 4 +---
 scan_explorer_service/views/image_proxy.py   | 8 +-------
 scan_explorer_service/views/manifest.py      | 2 --
 scan_explorer_service/views/metadata.py      | 5 +----
 7 files changed, 4 insertions(+), 22 deletions(-)

diff --git a/scan_explorer_service/manifest_factory.py b/scan_explorer_service/manifest_factory.py
index 52584c1..6fa313e 100644
--- a/scan_explorer_service/manifest_factory.py
+++ b/scan_explorer_service/manifest_factory.py
@@ -58,7 +58,6 @@ def get_or_create_canvas(self, page: Page):
         annotation.on = canvas.id
         canvas.add_annotation(annotation)
         canvas_dict[page.id] = canvas
-        
         return canvas
 
     def create_image_annotation(self, page: Page):
diff --git a/scan_explorer_service/open_search.py b/scan_explorer_service/open_search.py
index 434344c..2fad6b3 100644
--- a/scan_explorer_service/open_search.py
+++ b/scan_explorer_service/open_search.py
@@ -4,7 +4,6 @@
 from scan_explorer_service.utils.search_utils import EsFields, OrderOptions
 
 def create_query_string_query(query_string: str):
-    
     query =  {
         "query": {
             "query_string": {
@@ -12,10 +11,8 @@ def create_query_string_query(query_string: str):
                 "fields": ["article_bibcodes", "journal", "volume_id_lowercase", "volume"],
                 "default_operator": "AND"
             }
-        } 
+        }
     }
-
-    current_app.logger.debug(f"query string: {query}")
     return query
 
 def append_aggregate(query: dict, agg_field: EsFields, page: int, size: int, sort: OrderOptions):
diff --git a/scan_explorer_service/tests/test_metadata.py b/scan_explorer_service/tests/test_metadata.py
index 1bed5c2..9275298 100644
--- a/scan_explorer_service/tests/test_metadata.py
+++ b/scan_explorer_service/tests/test_metadata.py
@@ -92,7 +92,6 @@ def test_get_article(self, OpenSearch):
         self.assertEqual(expected_query, call_kwargs.get('body'))
         self.assertStatus(r, 200)
         expected_response = {"extra_collection_count": 0, "extra_page_count": 0,  "items": [{"bibcode": self.article.bibcode, "id": self.article.id, "pages": 3 }], "limit": 10, "page": 1, "pageCount": 1, "query": "",  "total": 1}
-        
         self.assertEqual(r.data, jsonify(expected_response).data)
 
     @patch('opensearchpy.OpenSearch')
diff --git a/scan_explorer_service/utils/search_utils.py b/scan_explorer_service/utils/search_utils.py
index fa79be5..3049657 100644
--- a/scan_explorer_service/utils/search_utils.py
+++ b/scan_explorer_service/utils/search_utils.py
@@ -74,7 +74,6 @@ def parse_query_string(qs):
         kv_arr = kv.split(':', maxsplit=1)
         #Remove all parameter from the original search to be able to handle the free search
         qs_only_free = qs_only_free.replace(kv, "")
-
         if len(kv_arr) == 2:
             qs_dict[kv_arr[0].lower()] = kv_arr[1].strip()
             #If the option have quotes we remove them from the free. Previous removal would than have failed
@@ -90,7 +89,7 @@ def parse_query_string(qs):
     for key in qs_dict.keys():
         #Translate input on the keys to the dedicated OS columns
         insensitive_replace = re.compile(re.escape(key), re.IGNORECASE)
-        qs = insensitive_replace.sub(query_translations[key.lower()], qs)   
+        qs = insensitive_replace.sub(query_translations[key.lower()], qs)
         # To ensure only the strings after the colon are replaced and no partial replacements are made 
         insensitive_replace = re.compile(r'(?<=:)\b' + re.escape(qs_dict[key]) + r'\b', re.IGNORECASE)
         qs = insensitive_replace.sub(qs_dict[key], qs)
@@ -134,7 +133,6 @@ def check_page_color(qs_dict: dict):
         valid_types = [p.name for p in PageColor]
         if page_color in valid_types:
             return
-        
         # Check lowercased and updated to cased
         for p in PageColor:
             if page_color.replace('"','').lower() == p.name.lower():
diff --git a/scan_explorer_service/views/image_proxy.py b/scan_explorer_service/views/image_proxy.py
index a2bcd9b..3beb58f 100644
--- a/scan_explorer_service/views/image_proxy.py
+++ b/scan_explorer_service/views/image_proxy.py
@@ -46,9 +46,8 @@ def image_proxy_thumbnail():
     try:
         id = request.args.get('id').replace(" ", "+")
         type = request.args.get('type')
-
         with current_app.session_scope() as session:
-            thumbnail_path = item_thumbnail(session, id, type)              
+            thumbnail_path = item_thumbnail(session, id, type)
             path = urlparse.urlparse(thumbnail_path).path
             
             remove = urlparse.urlparse(url_for_proxy('proxy.image_proxy', path='')).path
@@ -113,16 +112,13 @@ def fetch_object(object_name, bucket_name):
     if not file_content:
         current_app.logger.error(f"Failed to fetch content for {object_name}. File might be empty.")
         raise ValueError(f"File content is empty for {object_name}")
-   
     return file_content
 
 
 def fetch_article(item, memory_limit):
     try:
         object_name = f'{item.id}.pdf'.lower()
-
         full_path = f'pdfs/{object_name}'
-
         file_content = fetch_object(full_path, 'AWS_BUCKET_NAME_PDF')
 
         if len(file_content) > memory_limit:
@@ -130,7 +126,6 @@ def fetch_article(item, memory_limit):
 
         file_stream = io.BytesIO(file_content)
         file_stream.seek(0)
-
         return send_file(
             file_stream,
             as_attachment=True,
@@ -170,7 +165,6 @@ def pdf_save():
             current_app.logger.debug(f"Item retrieved successfully: {item.id}")
 
             response = generate_pdf(item, session, page_start, page_end, page_limit, memory_limit)
-
             return response 
     except Exception as e:
         return jsonify(Message=str(e)), 400    
\ No newline at end of file
diff --git a/scan_explorer_service/views/manifest.py b/scan_explorer_service/views/manifest.py
index c6c8170..b1dd1eb 100644
--- a/scan_explorer_service/views/manifest.py
+++ b/scan_explorer_service/views/manifest.py
@@ -33,9 +33,7 @@ def get_manifest(id: str):
 
         if item:
             manifest = manifest_factory.create_manifest(item)
-
             search_url = url_for_proxy('manifest.search', id=id)
-
             manifest_factory.add_search_service(manifest, search_url)
             
             return manifest.toJSON(top=True)
diff --git a/scan_explorer_service/views/metadata.py b/scan_explorer_service/views/metadata.py
index c9aee23..8d610ab 100644
--- a/scan_explorer_service/views/metadata.py
+++ b/scan_explorer_service/views/metadata.py
@@ -16,6 +16,7 @@
 def article_extra(bibcode: str):
     """Route that fetches additional metadata about an article from the ADS search service """
 
+
     auth_token = current_app.config.get('ADS_SEARCH_SERVICE_TOKEN')
     ads_search_service = current_app.config.get('ADS_SEARCH_SERVICE_URL')
     
@@ -24,7 +25,6 @@ def article_extra(bibcode: str):
             params = {'q': f'bibcode:{bibcode}', 'fl':'title,author'} 
             headers = {'Authorization': f'Bearer {auth_token}'}
             response = requests.get(ads_search_service, params, headers=headers).json()
-            
             docs = response.get('response').get('docs')
             if docs:
                 return docs[0]
@@ -32,7 +32,6 @@ def article_extra(bibcode: str):
                 return jsonify(message='No article found'), 404
         except Exception as e:
             return jsonify(message='Failed to retrieve external ADS article metadata'), 500
-    
     return {}
 
 @advertise(scopes=['api'], rate_limit=[300, 3600*24])
@@ -135,7 +134,6 @@ def article_search():
             text_query = qs_dict[SearchOptions.FullText.value]
 
         article_count = result['aggregations']['total_count']['value']
-
         collection_count = page_count = 0
         if article_count == 0:
             collection_count = aggregate_search(qs, EsFields.volume_id, page, limit, sort)['aggregations']['total_count']['value']
@@ -170,7 +168,6 @@ def page_search():
         text_query = ''
         if SearchOptions.FullText.value in qs_dict.keys():
             text_query = qs_dict[SearchOptions.FullText.value]
-
         return jsonify(serialize_os_page_result(result, page, limit, text_query))
     except Exception as e:
         return jsonify(message=str(e), type=ApiErrors.SearchError.value), 400