Bigramm
« Zurück zum Glossar IndexEin Bigramm bezeichnet eine Folge aus zwei aufeinanderfolgenden Token innerhalb einer Zeichen- oder Wortsequenz. In der Sprachverarbeitung werden Bigramme genutzt, um lokale Kontextbeziehungen zwischen zwei Einheiten statistisch zu modellieren. Sie sind ein zentrales Element in N-Gram-Modellen und probabilistischen Sprachmodellen.
Funktionsweise und Einordnung
Ein Bigramm entsteht durch die Zerlegung eines Textes in Token und die anschließende Bildung überlappender Zweierpaare.
Beispiel (wortbasiert):
„Semantic SEO ist relevant“ →
Semantic SEO | SEO ist | ist relevant
Beispiel (zeichenbasiert):
„SEO“ → SE | EO
Bigramme werden häufig zur Berechnung bedingter Wahrscheinlichkeiten verwendet:
P(Wort₂ | Wort₁)
Damit lässt sich modellieren, wie wahrscheinlich ein Wort in einem bestimmten lokalen Kontext auftritt. Bigramm-Modelle sind eine vereinfachte Form statistischer Sprachmodelle und bilden die Grundlage für komplexere Modelle wie Trigramme oder neuronale Sequenzmodelle.
In der Information Retrieval-Praxis werden Bigramme genutzt für:
- Kollokationsanalyse
- Query-Expansion
- Spam-Erkennung
- Sprachmodellierung
- Autocomplete-Systeme
Bigramme sind kontextsensitiv auf lokaler Ebene, erfassen jedoch keine langfristigen Abhängigkeiten.
Strategische Bedeutung für SEO und AI-Search
Für SEO sind Bigramme relevant, weil Suchsysteme nicht nur einzelne Keywords, sondern Wortbeziehungen bewerten. Häufige und semantisch konsistente Bigramme signalisieren thematische Kohärenz.
In AI-Search- und LLM-Systemen werden Bigramm-Strukturen nicht isoliert verwendet, bilden jedoch eine statistische Grundlage für Token-Wahrscheinlichkeiten. Auch moderne Transformer-Modelle berechnen Sequenzwahrscheinlichkeiten auf Token-Ebene, wobei lokale Kookkurrenzen eine Rolle spielen.
Im Kontext von Generative Engine Optimization (GEO) sind Bigramme relevant für:
- die Analyse typischer Wortkombinationen in einem Themencluster
- die Optimierung semantischer Konsistenz
- die Erkennung redundanter oder unnatürlicher Wortmuster
Bigramme sind kein direkter Rankingfaktor, aber ein Bestandteil statistischer Textbewertung.
Beispiel
In einem Themencluster zu „Knowledge Graph“ treten Bigramme wie „strukturierte Daten“, „semantische Entität“ oder „relationale Verknüpfung“ wiederholt auf. Diese wiederkehrenden Wortpaare erhöhen die statistische thematische Dichte und verbessern die maschinelle Einordnung.
Häufige Fragen zu Bigramm
Was ist der Unterschied zwischen Bigramm und N-Gramm?
Ein Bigramm ist ein spezieller Fall eines N-Gramms mit N = 2. N-Gramme bezeichnen allgemein Sequenzen aus N aufeinanderfolgenden Token.
Sind Bigramme noch relevant in modernen KI-Systemen?
Bigramme sind als eigenständige Modelle technisch überholt, bilden jedoch weiterhin eine statistische Grundlage für Token-Wahrscheinlichkeiten in Sprachmodellen. Lokale Kookkurrenzen bleiben auch in Transformer-Architekturen relevant.
Werden Bigramme direkt als Rankingfaktor genutzt?
Bigramme werden nicht als isolierter Rankingfaktor verwendet. Sie fließen indirekt in statistische Textanalysen und Relevanzbewertungen ein.
Was ist ein wortbasiertes vs. zeichenbasiertes Bigramm?
Ein wortbasiertes Bigramm besteht aus zwei aufeinanderfolgenden Wörtern. Ein zeichenbasiertes Bigramm besteht aus zwei aufeinanderfolgenden Zeichen innerhalb einer Zeichenkette.
Verwandte Begriffe
N-Gramm
Trigramm
Tokenisierung
Sprachmodell
Transformer
Information Retrieval
Kookkurrenz
Topic Modeling
Semantic SEO