Upgrade default cross-encoder to mixedbread ai's mxbai-rerank-xsmall

Previous cross-encoder model was a few years old, newer models should have improved in quality. Model size increases by 50% compared to previous for better performance, at least on benchmarks
2026-03-06 05:39:12 +00:00 · 2024-04-24 09:13:14 +05:30
parent 7eaf9367fe
commit ec41482324
4 changed files with 4 additions and 4 deletions
--- a/src/khoj/database/models/init.py
+++ b/src/khoj/database/models/init.py
@@ -185,7 +185,7 @@ class SearchModelConfig(BaseModel):
    bi_encoder_model_config = models.JSONField(default=dict)
    bi_encoder_query_encode_config = models.JSONField(default=dict)
    bi_encoder_docs_encode_config = models.JSONField(default=dict)
-    cross_encoder = models.CharField(max_length=200, default="cross-encoder/ms-marco-MiniLM-L-6-v2")
+    cross_encoder = models.CharField(max_length=200, default="mixedbread-ai/mxbai-rerank-xsmall-v1")
    embeddings_inference_endpoint = models.CharField(max_length=200, default=None, null=True, blank=True)
    embeddings_inference_endpoint_api_key = models.CharField(max_length=200, default=None, null=True, blank=True)
    cross_encoder_inference_endpoint = models.CharField(max_length=200, default=None, null=True, blank=True)
--- a/src/khoj/processor/embeddings.py
+++ b/src/khoj/processor/embeddings.py
@@ -92,7 +92,7 @@ class EmbeddingsModel:
 class CrossEncoderModel:
    def __init__(
        self,
-        model_name: str = "cross-encoder/ms-marco-MiniLM-L-6-v2",
+        model_name: str = "mixedbread-ai/mxbai-rerank-xsmall-v1",
        cross_encoder_inference_endpoint: str = None,
        cross_encoder_inference_endpoint_api_key: str = None,
    ):