Sparse Retrieval

Sparse Retrieval bezeichnet ein Retrieval-Verfahren, das Dokumente anhand sparsamer, termbasierter Repräsentationen durchsucht, bei denen nur explizit vorkommende Begriffe gewichtet werden. Die Relevanz basiert auf Wortübereinstimmung und statistischen Gewichtungen wie TF-IDF oder BM25. Sparse Retrieval ist die klassische Grundlage des Information Retrieval.

Funktionsweise und Einordnung

Beim Sparse Retrieval wird jedes Dokument als Vektor mit sehr vielen Dimensionen dargestellt, wobei die meisten Werte null sind. Nur vorkommende Terme erhalten Gewichtungen.

Typischer Ablauf:

Tokenisierung der Dokumente
Berechnung von Term-Frequenzen
Gewichtung über Verfahren wie TF-IDF oder BM25
Ranking nach Übereinstimmung mit der Suchanfrage

Der Begriff „sparse“ bezieht sich darauf, dass die Vektoren überwiegend aus Nullen bestehen. Es werden nur explizit enthaltene Begriffe berücksichtigt.

Eigenschaften:

hohe Präzision bei exakten Begriffen
transparente Gewichtungslogik
geringe semantische Generalisierung

Sparse Retrieval erkennt keine Synonyme oder Bedeutungsvarianten ohne explizite Wortüberlappung.

Strategische Bedeutung für SEO und AI-Search

Trotz zunehmender Nutzung von Dense Retrieval bleibt Sparse Retrieval relevant.

Implikationen für Generative Engine Optimization:

Exakte Terminologie bleibt wichtig.
Fachbegriffe sollten klar und konsistent verwendet werden.
Strukturierte Überschriften erhöhen lexikalische Trefferwahrscheinlichkeit.
Keyword-Dichte allein reicht jedoch nicht für AI-Search.

Viele moderne Systeme nutzen Hybrid Search, die Sparse und Dense Retrieval kombiniert.

Sichtbarkeit entsteht daher sowohl durch Wortübereinstimmung als auch durch semantische Nähe.

Beispiel

Anfrage:
„BM25 Formel“

Ein Dokument, das exakt die Begriffe „BM25“ und „Formel“ enthält, wird im Sparse Retrieval hoch gerankt.

Ein Dokument mit der Beschreibung „Ranking-Algorithmus zur Termgewichtung“ ohne explizite Nennung von „BM25“ wird hingegen nicht gefunden.

Häufige Fragen zu Sparse Retrieval

Was unterscheidet Sparse Retrieval von Dense Retrieval?

Sparse Retrieval basiert auf expliziter Wortübereinstimmung und statistischer Gewichtung. Dense Retrieval nutzt kontinuierliche Embeddings und semantische Ähnlichkeit. Sparse Retrieval ist lexikalisch, Dense Retrieval semantisch.

Welche Rolle spielt BM25 im Sparse Retrieval?

BM25 ist ein verbreitetes Ranking-Verfahren zur Gewichtung von Term-Frequenzen. Es bewertet Relevanz basierend auf Wortvorkommen und Dokumentlänge. Viele klassische Suchmaschinen nutzen BM25 als Kernalgorithmus.

Ist Sparse Retrieval veraltet?

Sparse Retrieval ist weiterhin effektiv bei präzisen Fachbegriffen und klar definierten Suchanfragen. Es wird häufig mit Dense Retrieval kombiniert. Als alleinige Methode ist es bei semantischen Anfragen limitiert.

Warum wird Sparse Retrieval in Hybrid Search integriert?

Sparse Retrieval liefert hohe Präzision bei exakten Begriffen. Dense Retrieval ergänzt semantische Generalisierung. Die Kombination erhöht Robustheit und Abdeckung.