Unigramm

Ein Unigramm ist ein einzelnes Token oder Wort, das als kleinste Einheit in einem statistischen Sprachmodell betrachtet wird. Es beschreibt die Wahrscheinlichkeitsverteilung einzelner Wörter ohne Berücksichtigung ihres Kontexts. Unigramme bilden die einfachste Form eines N-Gramm-Modells.

Funktionsweise und Einordnung

Ein Unigramm-Modell berechnet die Wahrscheinlichkeit eines Wortes unabhängig von vorangehenden oder nachfolgenden Wörtern. Formal wird jedes Token isoliert betrachtet. Die Gesamtwahrscheinlichkeit eines Textes ergibt sich aus der Multiplikation der Einzelwahrscheinlichkeiten aller enthaltenen Unigramme.

Beispiel:
In einem Unigramm-Modell wird das Wort „SEO“ nur anhand seiner relativen Häufigkeit im Korpus bewertet, nicht im Kontext von „technisches SEO“ oder „Semantic SEO“.

Unigramme sind Bestandteil statistischer Sprachmodelle und bilden die Basis für Bigramm- und Trigramm-Modelle. In modernen Large Language Models spielen sie als eigenständiges Modell kaum noch eine Rolle, sind jedoch konzeptionell grundlegend für die Entwicklung probabilistischer Sprachverarbeitung.

Strategische Bedeutung für SEO und AI-Search

Im SEO-Kontext entsprechen Unigramme einzelnen Keywords. Klassische Keyword-Optimierung basierte stark auf Unigramm-Logik, also isolierten Begriffen ohne semantische Relation.

Moderne Suchsysteme arbeiten jedoch kontextbasiert und entitätsorientiert. Reine Unigramm-Optimierung führt häufig zu Keyword-Stuffing und semantischer Schwäche.

Für Generative Engine Optimization ist das Verständnis von Unigrammen dennoch relevant: Sie sind die atomare Ebene der Textmodellierung. Semantische Stärke entsteht jedoch erst durch relationale Verknüpfung über N-Gramme, Entitäten und strukturellen Kontext.

Beispiel

Ein Korpus enthält folgende Wortverteilung:

SEO: 5 %
Content: 4 %
KI: 3 %

Ein Unigramm-Modell würde diese relativen Häufigkeiten zur Wahrscheinlichkeitsberechnung verwenden, ohne die Kombination „KI-Content“ oder „technisches SEO“ zu berücksichtigen.

Häufige Fragen zu Unigramm

Was unterscheidet ein Unigramm von einem Bigramm?

Ein Unigramm betrachtet ein einzelnes Wort isoliert. Ein Bigramm analysiert zwei aufeinanderfolgende Wörter als Einheit. Dadurch berücksichtigt das Bigramm einen minimalen Kontext.

Warum sind Unigramme für moderne Sprachmodelle nur begrenzt relevant?

Unigramme ignorieren Kontext vollständig. Moderne Sprachmodelle arbeiten mit komplexen Kontextrepräsentationen über viele Token hinweg. Reine Unigramm-Modelle liefern daher nur grobe Wahrscheinlichkeiten.

Sind Unigramme für SEO noch relevant?

Unigramme entsprechen einzelnen Keywords und sind weiterhin relevant für thematische Grundsignale. Isolierte Keyword-Optimierung ohne Kontext ist jedoch nicht mehr zeitgemäß. Semantische und entitätsbasierte Optimierung ist effektiver.

Gehören Unigramme zu N-Gramm-Modellen?

Unigramme sind die einfachste Form eines N-Gramm-Modells. N steht für die Anzahl der betrachteten Token. Bei N=1 spricht man von einem Unigramm.