Unigramm
Ein Unigramm ist ein sprachliches Modell, bei dem einzelne Wörter oder Zeichen unabhängig voneinander betrachtet werden.
Im Kontext der Sprachmodellierung bezeichnet ein Unigramm-Modell einen Ansatz, bei dem die Wahrscheinlichkeit jedes Wortes in einer Sequenz als unabhängig von anderen Wörtern angesehen wird.
Eigenschaften des Unigramm-Modells
In einem Unigramm-Sprachmodell für Wortfolgen steckt dieselbe Information wie in einem Sprachmodell zur Erkennung von einzeln gesprochenen Wörtern aus einem bestimmten Vokabular. Die wichtigsten Merkmale sind:
- Die Wahrscheinlichkeit jedes Wortes ist unabhängig vom Kontext
- Jedes Wort hat eine feste Wahrscheinlichkeit, die seiner Häufigkeit im gesamten Dokument entspricht
- Die Summe aller Wortwahrscheinlichkeiten in einem Dokument beträgt 1
Anwendung und Darstellung
Unigramm-Modelle werden häufig in Form von Tabellen dargestellt, die jedem Wort seine Wahrscheinlichkeit zuordnen. Beispielsweise könnte eine solche Tabelle wie folgt aussehen:
Wort | Wahrscheinlichkeit im Dokument |
---|---|
a | 0.1 |
world | 0.2 |
likes | 0.05 |
we | 0.05 |
share | 0.3 |
Abgrenzung zu komplexeren Modellen
Das Unigramm-Modell ist der einfachste Fall der N-Gramm-Modelle (mit n=1). Im Gegensatz dazu berücksichtigen komplexere Modelle wie Bigramme oder Trigramme den Kontext der vorangegangenen Wörter:
- Bigramm-Modell: Berücksichtigt das vorangegangene Wort (n=2)
- Trigramm-Modell: Berücksichtigt die zwei vorangegangenen Wörter (n=3)
Diese komplexeren Modelle können syntaktische Zusammenhänge besser erfassen, haben jedoch auch ihre Schwächen, insbesondere bei kurzen Kontexten.
Häufige Fragen (FAQ)
Was ist der Unterschied zwischen Unigramm und Monogramm?
Ein Unigramm ist ein sprachliches Modell, während ein Monogramm ein grafisches Symbol aus einem oder mehreren stilisierten Buchstaben ist.
Wofür werden Unigramm-Modelle eingesetzt?
Unigramm-Modelle werden in der Spracherkennung, Textklassifikation und bei einfachen Suchmaschinen eingesetzt.
Sind Unigramm-Modelle noch zeitgemäß?
Unigramm-Modelle wurden weitgehend von neuronalen Netzwerken und großen Sprachmodellen abgelöst, dienen aber als Grundlage zum Verständnis komplexerer Modelle.
Wie berechnet man die Wahrscheinlichkeit einer Wortsequenz im Unigramm-Modell?
Die Wahrscheinlichkeit wird durch Multiplikation der Einzelwahrscheinlichkeiten der Wörter berechnet.
Welche Schwächen haben Unigramm-Modelle?
Sie berücksichtigen keine Wortbeziehungen oder Kontexte und können daher syntaktische Strukturen nicht korrekt abbilden.
Verwandte Begriffe
- N-Gramm
- Bigramm
- Trigramm
- Sprachmodell
- Markov-Kette
- Wortvektor
- Spracherkennung
- Textklassifikation
- Maschinelles Lernen
- Natürliche Sprachverarbeitung