Tokenisierung

Geschrieben von Ralf Dodler am 11.05.2025.

« Zurück zum Glossar Index

Was ist Tokenisierung?

Tokenisierung ist der grundlegende Prozess in Large Language Models (LLMs), bei dem Text in kleinere Einheiten, sogenannte Tokens, zerlegt wird.

Diese Tokens bilden die Grundlage für die Sprachverarbeitung und das Textverständnis in KI-Modellen.

Ein Token kann ein Wort, ein Teil eines Wortes (Subwort) oder sogar ein einzelnes Zeichen sein, abhängig von der verwendeten Tokenisierungsmethode.

Wie funktioniert die Tokenisierung?

Die Tokenisierung ist der erste Schritt bei der Verarbeitung von Text durch ein LLM. Der Text wird dabei in kleinere Bausteine zerlegt, die das Modell verarbeiten kann.

Moderne LLMs verwenden häufig eine Subword-Tokenisierung, um auch mit unbekannten oder seltenen Wörtern effektiv umgehen zu können.

Der Prozess wandelt den Eingabetext in eine Sequenz von Token-IDs um, die das Modell für seine Berechnungen nutzt.

Es gibt verschiedene Tokenisierungsmethoden:

Wort-Tokenisierung: Der Text wird in einzelne Wörter aufgeteilt
Zeichen-Tokenisierung: Der Text wird in einzelne Zeichen zerlegt
Teilwort-Tokenisierung: Der Text wird in Subwörter oder Zeichensätze aufgeteilt

GPT-Modelle verwenden beispielsweise eine Teilwort-Tokenisierung namens Byte-Pair Encoding (BPE).

Warum ist Tokenisierung wichtig?

Tokenisierung ist das Rückgrat der Textverarbeitung in LLMs, da sie die Übersetzung von Rohdatentext in ein maschinenlesbares Format ermöglicht.

Durch die Zerlegung in Tokens kann das Modell Muster erkennen, Bedeutungen ableiten und Zusammenhänge zwischen Wörtern verstehen.

Die Qualität der Tokenisierung beeinflusst direkt die Leistungsfähigkeit des Sprachmodells.

Welche Rolle spielen Tokens bei der Verarbeitung?

Nach der Tokenisierung weist das LLM jedem Token eine eindeutige ID zu. Der tokenisierte Text wird als Sequenz von Token-IDs dargestellt, die das Modell verarbeiten kann.

Das LLM analysiert die semantischen Beziehungen zwischen den Tokens, wie häufig sie zusammen vorkommen oder in ähnlichen Kontexten verwendet werden.

Diese Muster und Beziehungen nutzt das Modell später, um neue Textsequenzen zu generieren.

Welche praktischen Auswirkungen hat die Tokenisierung?

Die Tokenisierung hat direkte Auswirkungen auf:

Kontextfenster: LLMs haben Einschränkungen bezüglich der maximalen Anzahl von Tokens, die sie verarbeiten können
Verarbeitungsgeschwindigkeit: Kleinere Tokens erhöhen die Flexibilität, benötigen aber mehr Rechenressourcen
Kosten: Bei vielen KI-Diensten basieren die Preise auf der Anzahl der verarbeiteten Tokens
Sprachverständnis: Die Art der Tokenisierung beeinflusst, wie gut das Modell bestimmte Wörter oder Konzepte versteht

Ein Richtwert: Ein Token entspricht in etwa 0,75 Wörtern in englischen Texten, wobei häufig verwendete Wörter oft als einzelne Tokens behandelt werden, während seltenere Begriffe in mehrere Tokens zerlegt werden können.

Häufige Fragen (FAQ)

Was ist der Unterschied zwischen Tokens und Wörtern?

Tokens sind maschinenlesbare Texteinheiten, die nicht immer mit Wörtern übereinstimmen, da ein Wort in mehrere Tokens zerlegt oder mehrere Wörter zu einem Token zusammengefasst werden können.

Welche Tokenisierungsmethode ist die beste?

Die optimale Methode hängt vom Anwendungsfall ab, wobei Teilwort-Tokenisierung (wie BPE) in modernen LLMs dominiert, da sie einen guten Kompromiss zwischen Flexibilität und Effizienz bietet.

Wie beeinflusst die Tokenisierung die Kosten von KI-Diensten?

Die Kosten werden oft pro Token berechnet, wobei zwischen Eingabe- und Ausgabetokens unterschieden wird und Ratenbegrenzungen (Token pro Minute) existieren können.

Warum werden seltene Wörter in mehrere Tokens zerlegt?

Dies ermöglicht dem Modell, auch unbekannte Wörter zu verarbeiten, indem es sie in bekannte Teilwörter zerlegt, was die Vokabulargröße reduziert und die Verarbeitung effizienter macht.

Wie kann ich sehen, wie ein Text tokenisiert wird?

Es gibt Tools wie den Tiktokenizer, mit denen man die Tokenisierung von Text visualisieren und analysieren kann.