N-Gramm
« Zurück zum Glossar IndexEin N-Gramm bezeichnet eine Sequenz aus N aufeinanderfolgenden Token innerhalb eines Textes. Token können Wörter, Zeichen oder Subwörter sein. N-Gramme dienen der statistischen Modellierung von Sprachmustern und lokalen Kontextbeziehungen.
Funktionsweise und Einordnung
Ein N-Gramm entsteht durch die Zerlegung eines Textes in Token und die anschließende Bildung überlappender Sequenzen mit fester Länge N.
Beispiele (wortbasiert):
Unigramm (N = 1):
„Semantic“ | „SEO“ | „optimiert“
Bigramm (N = 2):
„Semantic SEO“ | „SEO optimiert“
Trigramm (N = 3):
„Semantic SEO optimiert“
N-Gramm-Modelle berechnen Wahrscheinlichkeiten auf Basis beobachteter Sequenzen. Ein Bigramm-Modell approximiert beispielsweise:
P(Wort₂ | Wort₁)
Ein Trigramm-Modell approximiert:
P(Wort₃ | Wort₁, Wort₂)
Je größer N ist, desto spezifischer wird der Kontext, gleichzeitig steigt jedoch die Datenabhängigkeit. Klassische N-Gramm-Modelle leiden unter dem Sparsity-Problem, da viele mögliche Sequenzen selten oder nie auftreten.
Moderne neuronale Sprachmodelle ersetzen explizite N-Gramm-Tabellen durch Vektorraumrepräsentationen, behalten jedoch das Prinzip sequenzieller Wahrscheinlichkeitsberechnung bei.
Strategische Bedeutung für SEO und AI-Search
Im SEO-Kontext sind N-Gramme relevant für:
- Analyse typischer Wortkombinationen
- Identifikation semantischer Kookkurrenzen
- Bewertung thematischer Dichte
- Erkennung unnatürlicher Keyword-Muster
Suchmaschinen bewerten nicht isolierte Keywords, sondern Wortrelationen im Kontext. N-Gramm-Analysen helfen, semantische Kohärenz statt bloßer Keyword-Häufigkeit zu optimieren.
In AI-Search-Systemen werden zwar keine klassischen N-Gramm-Tabellen verwendet, doch Token-Sequenzen bleiben die Grundlage der Wahrscheinlichkeitsberechnung. Lokale Kontextmuster beeinflussen weiterhin die Modellinferenz.
Im Rahmen von Generative Engine Optimization (GEO) unterstützt N-Gramm-Analyse:
- konsistente Terminologie
- klare Begriffsverknüpfungen
- Reduktion redundanter Formulierungen
- semantisch stabile Themencluster
N-Gramme sind kein Rankingfaktor, sondern ein Analysewerkzeug zur Textstrukturierung.
Beispiel
In einem Themencluster zu „Knowledge Graph“ treten regelmäßig Sequenzen wie „strukturierte Daten“, „semantische Entität“ oder „relationale Verknüpfung“ auf. Diese wiederkehrenden N-Gramme erhöhen die thematische Kohärenz und unterstützen die maschinelle Einordnung des Inhalts.
Häufige Fragen zu N-Gramm
Was ist der Unterschied zwischen Unigramm, Bigramm und Trigramm?
Ein Unigramm besteht aus einem einzelnen Token. Ein Bigramm umfasst zwei aufeinanderfolgende Token, ein Trigramm drei. N-Gramm ist der Oberbegriff für beliebige Sequenzlängen.
Werden N-Gramme noch in modernen Sprachmodellen verwendet?
Explizite N-Gramm-Modelle sind weitgehend durch neuronale Modelle ersetzt worden. Das Prinzip sequenzieller Wahrscheinlichkeitsberechnung auf Token-Ebene bleibt jedoch bestehen.
Sind N-Gramme ein Rankingfaktor?
N-Gramme sind kein direkter Rankingfaktor. Sie helfen jedoch bei der Analyse von Textmustern, semantischer Dichte und Kontextkonsistenz.
Was ist das Sparsity-Problem bei N-Gramm-Modellen?
Das Sparsity-Problem beschreibt die Tatsache, dass viele mögliche Token-Sequenzen selten oder nie auftreten. Dadurch werden Wahrscheinlichkeiten unzuverlässig, insbesondere bei hohen N-Werten.
Verwandte Begriffe
Unigramm
Bigramm
Trigramm
Tokenisierung
Sprachmodell
Transformer
Kookkurrenz
Semantic SEO
Generative Engine Optimization