Sparse Retrieval
« Zurück zum Glossar IndexSparse Retrieval bezeichnet ein Retrieval-Verfahren, das Dokumente anhand sparsamer, termbasierter Repräsentationen durchsucht, bei denen nur explizit vorkommende Begriffe gewichtet werden. Die Relevanz basiert auf Wortübereinstimmung und statistischen Gewichtungen wie TF-IDF oder BM25. Sparse Retrieval ist die klassische Grundlage des Information Retrieval.
Funktionsweise und Einordnung
Beim Sparse Retrieval wird jedes Dokument als Vektor mit sehr vielen Dimensionen dargestellt, wobei die meisten Werte null sind. Nur vorkommende Terme erhalten Gewichtungen.
Typischer Ablauf:
- Tokenisierung der Dokumente
- Berechnung von Term-Frequenzen
- Gewichtung über Verfahren wie TF-IDF oder BM25
- Ranking nach Übereinstimmung mit der Suchanfrage
Der Begriff „sparse“ bezieht sich darauf, dass die Vektoren überwiegend aus Nullen bestehen. Es werden nur explizit enthaltene Begriffe berücksichtigt.
Eigenschaften:
- hohe Präzision bei exakten Begriffen
- transparente Gewichtungslogik
- geringe semantische Generalisierung
Sparse Retrieval erkennt keine Synonyme oder Bedeutungsvarianten ohne explizite Wortüberlappung.
Strategische Bedeutung für SEO und AI-Search
Trotz zunehmender Nutzung von Dense Retrieval bleibt Sparse Retrieval relevant.
Implikationen für Generative Engine Optimization:
- Exakte Terminologie bleibt wichtig.
- Fachbegriffe sollten klar und konsistent verwendet werden.
- Strukturierte Überschriften erhöhen lexikalische Trefferwahrscheinlichkeit.
- Keyword-Dichte allein reicht jedoch nicht für AI-Search.
Viele moderne Systeme nutzen Hybrid Search, die Sparse und Dense Retrieval kombiniert.
Sichtbarkeit entsteht daher sowohl durch Wortübereinstimmung als auch durch semantische Nähe.
Beispiel
Anfrage:
„BM25 Formel“
Ein Dokument, das exakt die Begriffe „BM25“ und „Formel“ enthält, wird im Sparse Retrieval hoch gerankt.
Ein Dokument mit der Beschreibung „Ranking-Algorithmus zur Termgewichtung“ ohne explizite Nennung von „BM25“ wird hingegen nicht gefunden.
Häufige Fragen zu Sparse Retrieval
Was unterscheidet Sparse Retrieval von Dense Retrieval?
Sparse Retrieval basiert auf expliziter Wortübereinstimmung und statistischer Gewichtung. Dense Retrieval nutzt kontinuierliche Embeddings und semantische Ähnlichkeit. Sparse Retrieval ist lexikalisch, Dense Retrieval semantisch.
Welche Rolle spielt BM25 im Sparse Retrieval?
BM25 ist ein verbreitetes Ranking-Verfahren zur Gewichtung von Term-Frequenzen. Es bewertet Relevanz basierend auf Wortvorkommen und Dokumentlänge. Viele klassische Suchmaschinen nutzen BM25 als Kernalgorithmus.
Ist Sparse Retrieval veraltet?
Sparse Retrieval ist weiterhin effektiv bei präzisen Fachbegriffen und klar definierten Suchanfragen. Es wird häufig mit Dense Retrieval kombiniert. Als alleinige Methode ist es bei semantischen Anfragen limitiert.
Warum wird Sparse Retrieval in Hybrid Search integriert?
Sparse Retrieval liefert hohe Präzision bei exakten Begriffen. Dense Retrieval ergänzt semantische Generalisierung. Die Kombination erhöht Robustheit und Abdeckung.
Verwandte Begriffe
Dense Retrieval
Hybrid Search
Information Retrieval
BM25
TF-IDF
Vektorsuche
Embeddings
Re-Ranking
Generative Engine Optimization