Use python standard logging framework for app logs

- Stop passing verbose flag around app methods - Minor remap of verbosity levels to match python logging framework levels - verbose = 0 maps to logging.WARN - verbose = 1 maps to logging.INFO - verbose >=2 maps to logging.DEBUG - Minor clean-up of app: unused modules, conversation file opening
2026-03-06 13:22:12 +00:00 · 2022-09-03 14:43:32 +03:00
parent d0531c3064
commit 094bd18e57
10 changed files with 184 additions and 155 deletions
--- a/src/search_type/image_search.py
+++ b/src/search_type/image_search.py
@@ -5,6 +5,7 @@ import pathlib
 import copy
 import shutil
 import time
+import logging

 # External Packages
 from sentence_transformers import SentenceTransformer, util
@@ -17,7 +18,10 @@ from src.utils.helpers import get_absolute_path, resolve_absolute_path, load_mod
 import src.utils.exiftool as exiftool
 from src.utils.config import ImageSearchModel
 from src.utils.rawconfig import ImageContentConfig, ImageSearchConfig
-from src.utils import state
+
+
+# Create Logger
+logger = logging.getLogger(__name__)


 def initialize_model(search_config: ImageSearchConfig):
@@ -39,34 +43,33 @@ def initialize_model(search_config: ImageSearchConfig):
    return encoder


-def extract_entries(image_directories, verbose=0):
+def extract_entries(image_directories):
    image_names = []
    for image_directory in image_directories:
        image_directory = resolve_absolute_path(image_directory, strict=True)
        image_names.extend(list(image_directory.glob('*.jpg')))
        image_names.extend(list(image_directory.glob('*.jpeg')))

-    if verbose > 0:
+    if logger.level >= logging.INFO:
        image_directory_names = ', '.join([str(image_directory) for image_directory in image_directories])
-        print(f'Found {len(image_names)} images in {image_directory_names}')
+        logger.info(f'Found {len(image_names)} images in {image_directory_names}')
    return sorted(image_names)


-def compute_embeddings(image_names, encoder, embeddings_file, batch_size=50, use_xmp_metadata=False, regenerate=False, verbose=0):
+def compute_embeddings(image_names, encoder, embeddings_file, batch_size=50, use_xmp_metadata=False, regenerate=False):
    "Compute (and Save) Embeddings or Load Pre-Computed Embeddings"

-    image_embeddings = compute_image_embeddings(image_names, encoder, embeddings_file, batch_size, regenerate, verbose)
-    image_metadata_embeddings = compute_metadata_embeddings(image_names, encoder, embeddings_file, batch_size, use_xmp_metadata, regenerate, verbose)
+    image_embeddings = compute_image_embeddings(image_names, encoder, embeddings_file, batch_size, regenerate)
+    image_metadata_embeddings = compute_metadata_embeddings(image_names, encoder, embeddings_file, batch_size, use_xmp_metadata, regenerate)

    return image_embeddings, image_metadata_embeddings


-def compute_image_embeddings(image_names, encoder, embeddings_file, batch_size=50, regenerate=False, verbose=0):
+def compute_image_embeddings(image_names, encoder, embeddings_file, batch_size=50, regenerate=False):
    # Load pre-computed image embeddings from file if exists
    if resolve_absolute_path(embeddings_file).exists() and not regenerate:
        image_embeddings = torch.load(embeddings_file)
-        if verbose > 0:
-            print(f"Loaded pre-computed embeddings from {embeddings_file}")
+        logger.info(f"Loaded {len(image_embeddings)} image embeddings from {embeddings_file}")
    # Else compute the image embeddings from scratch, which can take a while
    else:
        image_embeddings = []
@@ -87,8 +90,7 @@ def compute_image_embeddings(image_names, encoder, embeddings_file, batch_size=5

        # Save computed image embeddings to file
        torch.save(image_embeddings, embeddings_file)
-        if verbose > 0:
-            print(f"Saved computed embeddings to {embeddings_file}")
+        logger.info(f"Saved computed embeddings to {embeddings_file}")

    return image_embeddings

@@ -99,8 +101,7 @@ def compute_metadata_embeddings(image_names, encoder, embeddings_file, batch_siz
    # Load pre-computed image metadata embedding file if exists
    if use_xmp_metadata and resolve_absolute_path(f"{embeddings_file}_metadata").exists() and not regenerate:
        image_metadata_embeddings = torch.load(f"{embeddings_file}_metadata")
-        if verbose > 0:
-            print(f"Loaded pre-computed embeddings from {embeddings_file}_metadata")
+        logger.info(f"Loaded pre-computed embeddings from {embeddings_file}_metadata")

    # Else compute the image metadata embeddings from scratch, which can take a while
    if use_xmp_metadata and image_metadata_embeddings is None:
@@ -113,16 +114,15 @@ def compute_metadata_embeddings(image_names, encoder, embeddings_file, batch_siz
                    convert_to_tensor=True,
                    batch_size=min(len(image_metadata), batch_size))
            except RuntimeError as e:
-                print(f"Error encoding metadata for images starting from\n\tindex: {index},\n\timages: {image_names[index:index+batch_size]}\nException: {e}")
+                logger.error(f"Error encoding metadata for images starting from\n\tindex: {index},\n\timages: {image_names[index:index+batch_size]}\nException: {e}")
                continue
        torch.save(image_metadata_embeddings, f"{embeddings_file}_metadata")
-        if verbose > 0:
-            print(f"Saved computed metadata embeddings to {embeddings_file}_metadata")
+        logger.info(f"Saved computed metadata embeddings to {embeddings_file}_metadata")

    return image_metadata_embeddings


-def extract_metadata(image_name, verbose=0):
+def extract_metadata(image_name):
    with exiftool.ExifTool() as et:
        image_metadata = et.get_tags(["XMP:Subject", "XMP:Description"], str(image_name))
        image_metadata_subjects = set([subject.split(":")[1] for subject in image_metadata.get("XMP:Subject", "") if ":" in subject])
@@ -131,8 +131,7 @@ def extract_metadata(image_name, verbose=0):
        if len(image_metadata_subjects) > 0:
            image_processed_metadata += ". " + ", ".join(image_metadata_subjects)

-        if verbose > 2:
-            print(f"{image_name}:\t{image_processed_metadata}")
+        logger.debug(f"{image_name}:\t{image_processed_metadata}")

        return image_processed_metadata

@@ -143,19 +142,16 @@ def query(raw_query, count, model: ImageSearchModel):
        query_imagepath = resolve_absolute_path(pathlib.Path(raw_query), strict=True)
        query = copy.deepcopy(Image.open(query_imagepath))
        query.thumbnail((640, query.height)) # scale down image for faster processing
-        if model.verbose > 0:
-            print(f"Find Images similar to Image at {query_imagepath}")
+        logger.info(f"Find Images similar to Image at {query_imagepath}")
    else:
        query = raw_query
-        if state.verbose > 0:
-            print(f"Find Images by Text: {query}")
+        logger.info(f"Find Images by Text: {query}")

    # Now we encode the query (which can either be an image or a text string)
    start = time.time()
    query_embedding = model.image_encoder.encode([query], convert_to_tensor=True, show_progress_bar=False)
    end = time.time()
-    if state.verbose > 1:
-        print(f"Query Encode Time: {end - start:.3f} seconds")
+    logger.debug(f"Query Encode Time: {end - start:.3f} seconds")

    # Compute top_k ranked images based on cosine-similarity b/w query and all image embeddings.
    start = time.time()
@@ -163,8 +159,7 @@ def query(raw_query, count, model: ImageSearchModel):
                  for result
                  in util.semantic_search(query_embedding, model.image_embeddings, top_k=count)[0]}
    end = time.time()
-    if state.verbose > 1:
-        print(f"Search Time: {end - start:.3f} seconds")
+    logger.debug(f"Search Time: {end - start:.3f} seconds")

    # Compute top_k ranked images based on cosine-similarity b/w query and all image metadata embeddings.
    if model.image_metadata_embeddings:
@@ -173,8 +168,7 @@ def query(raw_query, count, model: ImageSearchModel):
                         for result
                         in util.semantic_search(query_embedding, model.image_metadata_embeddings, top_k=count)[0]}
        end = time.time()
-        if state.verbose > 1:
-            print(f"Metadata Search Time: {end - start:.3f} seconds")
+        logger.debug(f"Metadata Search Time: {end - start:.3f} seconds")

        # Sum metadata, image scores of the highest ranked images
        for corpus_id, score in metadata_hits.items():
@@ -237,7 +231,7 @@ def collate_results(hits, image_names, output_directory, image_files_url, count=
    return results


-def setup(config: ImageContentConfig, search_config: ImageSearchConfig, regenerate: bool, verbose: bool=False) -> ImageSearchModel:
+def setup(config: ImageContentConfig, search_config: ImageSearchConfig, regenerate: bool) -> ImageSearchModel:
    # Initialize Model
    encoder = initialize_model(search_config)

@@ -245,7 +239,7 @@ def setup(config: ImageContentConfig, search_config: ImageSearchConfig, regenera
    absolute_image_files, filtered_image_files = set(), set()
    if config.input_directories:
        image_directories = [resolve_absolute_path(directory, strict=True) for directory in config.input_directories]
-        absolute_image_files = set(extract_entries(image_directories, verbose))
+        absolute_image_files = set(extract_entries(image_directories))
    if config.input_filter:
        filtered_image_files = set(glob.glob(get_absolute_path(config.input_filter)))

@@ -259,14 +253,12 @@ def setup(config: ImageContentConfig, search_config: ImageSearchConfig, regenera
        embeddings_file,
        batch_size=config.batch_size,
        regenerate=regenerate,
-        use_xmp_metadata=config.use_xmp_metadata,
-        verbose=verbose)
+        use_xmp_metadata=config.use_xmp_metadata)

    return ImageSearchModel(all_image_files,
                            image_embeddings,
                            image_metadata_embeddings,
-                            encoder,
-                            verbose)
+                            encoder)


 if __name__ == '__main__':
--- a/src/search_type/text_search.py
+++ b/src/search_type/text_search.py
@@ -1,8 +1,9 @@
 # Standard Packages
 import argparse
 import pathlib
-from copy import deepcopy
+import logging
 import time
+from copy import deepcopy

 # External Packages
 import torch
@@ -16,6 +17,9 @@ from src.utils.rawconfig import TextSearchConfig, TextContentConfig
 from src.utils.jsonl import load_jsonl


+logger = logging.getLogger(__name__)
+
+
 def initialize_model(search_config: TextSearchConfig):
    "Initialize model for semantic search on text"
    torch.set_num_threads(4)
@@ -46,32 +50,30 @@ def initialize_model(search_config: TextSearchConfig):
    return bi_encoder, cross_encoder, top_k


-def extract_entries(jsonl_file, verbose=0):
+def extract_entries(jsonl_file):
    "Load entries from compressed jsonl"
    return [{'compiled': f'{entry["compiled"]}', 'raw': f'{entry["raw"]}'}
            for entry
-            in load_jsonl(jsonl_file, verbose=verbose)]
+            in load_jsonl(jsonl_file)]


-def compute_embeddings(entries, bi_encoder, embeddings_file, regenerate=False, verbose=0):
+def compute_embeddings(entries, bi_encoder, embeddings_file, regenerate=False):
    "Compute (and Save) Embeddings or Load Pre-Computed Embeddings"
    # Load pre-computed embeddings from file if exists
    if embeddings_file.exists() and not regenerate:
        corpus_embeddings = torch.load(get_absolute_path(embeddings_file), map_location=state.device)
-        if verbose > 0:
-            print(f"Loaded embeddings from {embeddings_file}")
+        logger.info(f"Loaded embeddings from {embeddings_file}")

    else:  # Else compute the corpus_embeddings from scratch, which can take a while
        corpus_embeddings = bi_encoder.encode([entry['compiled'] for entry in entries], convert_to_tensor=True, device=state.device, show_progress_bar=True)
        corpus_embeddings = util.normalize_embeddings(corpus_embeddings)
        torch.save(corpus_embeddings, embeddings_file)
-        if verbose > 0:
-            print(f"Computed embeddings and saved them to {embeddings_file}")
+        logger.info(f"Computed embeddings and saved them to {embeddings_file}")

    return corpus_embeddings


-def query(raw_query: str, model: TextSearchModel, rank_results=False, filters: list = [], verbose=0):
+def query(raw_query: str, model: TextSearchModel, rank_results=False, filters: list = []):
    "Search for entries that answer the query"
    query = raw_query

@@ -85,16 +87,14 @@ def query(raw_query: str, model: TextSearchModel, rank_results=False, filters: l
        corpus_embeddings = model.corpus_embeddings
        entries = model.entries
    end = time.time()
-    if verbose > 1:
-        print(f"Copy Time: {end - start:.3f} seconds")
+    logger.debug(f"Copy Time: {end - start:.3f} seconds")

    # Filter query, entries and embeddings before semantic search
    start = time.time()
    for filter in filters_in_query:
        query, entries, corpus_embeddings = filter.filter(query, entries, corpus_embeddings)
    end = time.time()
-    if verbose > 1:
-        print(f"Filter Time: {end - start:.3f} seconds")
+    logger.debug(f"Filter Time: {end - start:.3f} seconds")

    if entries is None or len(entries) == 0:
        return [], []
@@ -104,15 +104,13 @@ def query(raw_query: str, model: TextSearchModel, rank_results=False, filters: l
    question_embedding = model.bi_encoder.encode([query], convert_to_tensor=True, device=state.device)
    question_embedding = util.normalize_embeddings(question_embedding)
    end = time.time()
-    if verbose > 1:
-        print(f"Query Encode Time: {end - start:.3f} seconds on device: {state.device}")
+    logger.debug(f"Query Encode Time: {end - start:.3f} seconds on device: {state.device}")

    # Find relevant entries for the query
    start = time.time()
    hits = util.semantic_search(question_embedding, corpus_embeddings, top_k=model.top_k, score_function=util.dot_score)[0]
    end = time.time()
-    if verbose > 1:
-        print(f"Search Time: {end - start:.3f} seconds on device: {state.device}")
+    logger.debug(f"Search Time: {end - start:.3f} seconds on device: {state.device}")

    # Score all retrieved entries using the cross-encoder
    if rank_results:
@@ -120,8 +118,7 @@ def query(raw_query: str, model: TextSearchModel, rank_results=False, filters: l
        cross_inp = [[query, entries[hit['corpus_id']]['compiled']] for hit in hits]
        cross_scores = model.cross_encoder.predict(cross_inp)
        end = time.time()
-        if verbose > 1:
-            print(f"Cross-Encoder Predict Time: {end - start:.3f} seconds on device: {state.device}")
+        logger.debug(f"Cross-Encoder Predict Time: {end - start:.3f} seconds on device: {state.device}")

        # Store cross-encoder scores in results dictionary for ranking
        for idx in range(len(cross_scores)):
@@ -133,8 +130,7 @@ def query(raw_query: str, model: TextSearchModel, rank_results=False, filters: l
    if rank_results:
        hits.sort(key=lambda x: x['cross-score'], reverse=True) # sort by cross-encoder score
    end = time.time()
-    if verbose > 1:
-        print(f"Rank Time: {end - start:.3f} seconds on device: {state.device}")
+    logger.debug(f"Rank Time: {end - start:.3f} seconds on device: {state.device}")

    return hits, entries

@@ -167,24 +163,24 @@ def collate_results(hits, entries, count=5):
        in hits[0:count]]


-def setup(text_to_jsonl, config: TextContentConfig, search_config: TextSearchConfig, regenerate: bool, verbose: bool=False) -> TextSearchModel:
+def setup(text_to_jsonl, config: TextContentConfig, search_config: TextSearchConfig, regenerate: bool) -> TextSearchModel:
    # Initialize Model
    bi_encoder, cross_encoder, top_k = initialize_model(search_config)

    # Map notes in text files to (compressed) JSONL formatted file
    config.compressed_jsonl = resolve_absolute_path(config.compressed_jsonl)
    if not config.compressed_jsonl.exists() or regenerate:
-        text_to_jsonl(config.input_files, config.input_filter, config.compressed_jsonl, verbose)
+        text_to_jsonl(config.input_files, config.input_filter, config.compressed_jsonl)

    # Extract Entries
-    entries = extract_entries(config.compressed_jsonl, verbose)
+    entries = extract_entries(config.compressed_jsonl)
    top_k = min(len(entries), top_k)  # top_k hits can't be more than the total entries in corpus

    # Compute or Load Embeddings
    config.embeddings_file = resolve_absolute_path(config.embeddings_file)
-    corpus_embeddings = compute_embeddings(entries, bi_encoder, config.embeddings_file, regenerate=regenerate, verbose=verbose)
+    corpus_embeddings = compute_embeddings(entries, bi_encoder, config.embeddings_file, regenerate=regenerate)

-    return TextSearchModel(entries, corpus_embeddings, bi_encoder, cross_encoder, top_k, verbose=verbose)
+    return TextSearchModel(entries, corpus_embeddings, bi_encoder, cross_encoder, top_k)


 if __name__ == '__main__':
@@ -200,7 +196,7 @@ if __name__ == '__main__':
    parser.add_argument('--verbose', action='count', default=0, help="Show verbose conversion logs. Default: 0")
    args = parser.parse_args()

-    entries, corpus_embeddings, bi_encoder, cross_encoder, top_k = setup(args.input_files, args.input_filter, args.compressed_jsonl, args.embeddings, args.regenerate, args.verbose)
+    entries, corpus_embeddings, bi_encoder, cross_encoder, top_k = setup(args.input_files, args.input_filter, args.compressed_jsonl, args.embeddings, args.regenerate)

    # Run User Queries on Entries in Interactive Mode
    while args.interactive:
@@ -213,4 +209,4 @@ if __name__ == '__main__':
        hits = query(user_query, corpus_embeddings, entries, bi_encoder, cross_encoder, top_k)

        # render results
-        render_results(hits, entries, count=args.results_count)
+        render_results(hits, entries, count=args.results_count)