Bigramm

Geschrieben von Ralf Dodler am 15.05.2025.

« Zurück zum Glossar Index

Was ist ein Bigramm?

Ein Bigramm ist eine Kombination aus zwei direkt aufeinanderfolgenden Elementen innerhalb eines Textes.

Diese Elemente können Buchstaben, Wörter oder andere Textfragmente sein. In der Korpuslinguistik bezeichnet ein Bigramm speziell eine Wortfolge w1 w2, die aus zwei festen Wörtern besteht, wie beispielsweise „ganze Welt“, „viel schwieriger“ oder „sondern auch“.

Welche Arten von Bigrammen gibt es?

Je nach Anwendungsbereich können Bigramme unterschiedliche Elemente umfassen:

Buchstaben-Bigramme: Kombinationen aus zwei aufeinanderfolgenden Buchstaben, auch „Digramme“ genannt. Im Wort „Bigramm“ selbst kommen die Buchstaben-Bigramme „bi“, „ig“, „gr“, „ra“, „am“ und „mm“ vor.
Wort-Bigramme: Zwei aufeinanderfolgende Wörter in einem Text, wie „viel schwieriger“.

Wozu werden Bigramme verwendet?

Bigramme finden in verschiedenen Bereichen Anwendung:

Kryptologie: Bei der Bigramm-Chiffre werden Buchstabenpaare durch andere ersetzt, was eine Form der bigrafischen Substitution darstellt.
Computerlinguistik: Zur Analyse von Texten und Erstellung von Sprachmodellen.
Spracherkennung: Zur Unterscheidung von Homophonen (gleich klingenden Wörtern) durch Kontextanalyse.
Kryptoanalyse: Durch statistische Auswertung von Bigramm-Häufigkeiten können verschlüsselte Texte entschlüsselt werden.

Wie werden Bigramme statistisch ausgewertet?

Die Bigramm-Statistik analysiert die Häufigkeit bestimmter Bigramme in einer Sprache. In der deutschen Sprache gehören beispielsweise „EN“ und „ER“ mit einer Vorkommenswahrscheinlichkeit von etwa 4 Prozent zu den häufigsten Buchstaben-Bigrammen. Diese statistischen Daten sind besonders wertvoll für:

Spracherkennungssysteme
Kryptoanalyse
Linguistische Forschung
Maschinelle Übersetzung

Wie ist ein Bigramm im N-Gramm-Konzept einzuordnen?

Ein Bigramm ist ein spezieller Fall eines N-Gramms, bei dem N=2 ist. N-Gramme sind allgemein Textfragmente, die aus N aufeinanderfolgenden Elementen bestehen:

Monogramm (N=1): Ein einzelnes Element (z.B. „A“)
Bigramm (N=2): Zwei Elemente (z.B. „AB“)
Trigramm (N=3): Drei Elemente (z.B. „UNO“)
Tetragramm (N=4): Vier Elemente (z.B. „HAUS“)

Wie wird die Bigramm-Affinität berechnet?

Die Bigramm-Affinität ist ein Maß dafür, wie gut bestimmte Buchstabengruppen zueinander passen. Sie wird berechnet, indem man die Häufigkeitswerte der einzelnen Bigramme in einer Sprache (angegeben als Vorkommen pro 10.000) miteinander multipliziert.

Je höher der Wert, desto besser passen die Buchstabengruppen zusammen. Dieses Konzept wird besonders in der Kryptoanalyse verwendet, um zusammenpassende Spalten in einem Transpositions-Chiffrat zu identifizieren.

Häufige Fragen (FAQ)

Was ist der Unterschied zwischen Bigramm und Digramm?

Beide Begriffe bezeichnen dasselbe Konzept einer Zweier-Kombination, wobei „Digramm“ häufiger im Kontext von Buchstabenpaaren verwendet wird.

Wie kann man Bigramme zur Textanalyse nutzen?

Bigramme helfen bei der statistischen Analyse von Texten, der Spracherkennung und der Entwicklung von Vorhersagemodellen für Textgenerierung.

Welche Rolle spielen Bigramme in der Kryptografie?

In der Kryptografie werden Bigramme sowohl für Verschlüsselungsmethoden (Bigramm-Chiffre) als auch für die Entschlüsselung durch statistische Analyse verwendet.

Wie unterscheiden sich Wort-Bigramme von Buchstaben-Bigrammen?

Wort-Bigramme bestehen aus zwei aufeinanderfolgenden Wörtern, während Buchstaben-Bigramme zwei aufeinanderfolgende Buchstaben umfassen.

Welche praktischen Anwendungen haben Bigramm-Analysen heute?

Moderne Anwendungen umfassen Spracherkennungssysteme, Rechtschreibprüfungen, maschinelle Übersetzung und Textvorhersage auf Smartphones.