Token
« Zurück zum Glossar IndexEin Token bezeichnet die kleinste verarbeitbare Einheit innerhalb eines Sprachmodells, die bei der Textanalyse und -generierung verwendet wird. Tokens können Wörter, Wortbestandteile, Satzzeichen oder einzelne Zeichen sein. Large Language Models operieren nicht auf vollständigen Wörtern, sondern auf Sequenzen solcher Tokens.
Funktionsweise und Einordnung
Bevor ein Sprachmodell Text verarbeiten kann, wird er tokenisiert. Dabei wird eine Zeichenkette in diskrete Einheiten zerlegt.
Typische Eigenschaften von Tokens:
- Ein Wort kann aus mehreren Tokens bestehen.
- Häufige Begriffe sind oft ein einzelnes Token.
- Seltene oder lange Wörter werden in Subword-Einheiten zerlegt.
- Auch Leerzeichen und Satzzeichen können eigene Tokens sein.
Moderne LLMs nutzen meist Subword-Tokenisierung wie Byte-Pair-Encoding (BPE) oder ähnliche Verfahren. Dadurch wird ein Gleichgewicht zwischen Vokabulargröße und Flexibilität erreicht.
Die maximale Kontextlänge eines Modells wird in Tokens gemessen. Auch Kostenstrukturen von API-basierten Modellen orientieren sich an der Anzahl verarbeiteter Tokens.
Strategische Bedeutung für SEO und AI-Search
Tokenisierung beeinflusst, wie Inhalte maschinell repräsentiert werden. Für SEO und Generative Engine Optimization ergeben sich daraus mehrere Implikationen:
- Sehr lange oder komplexe Begriffe werden in mehrere Tokens zerlegt.
- Klar strukturierte Sprache reduziert unnötige Token-Komplexität.
- Kontextfensterbegrenzungen beeinflussen, welche Inhalte gemeinsam verarbeitet werden können.
AI-Search-Systeme analysieren Dokumente tokenbasiert. Inhalte mit klarer Struktur, konsistenter Terminologie und präzisen Definitionen sind effizienter repräsentierbar und leichter in semantische Vektorräume überführbar.
Token sind damit die operative Basiseinheit jeder LLM-Interaktion.
Beispiel
Der Begriff „Tokenisierung“ könnte in folgende Tokens zerlegt werden:
- „Token“
- „isierung“
Ein längerer Fachbegriff wie „GenerativeEngineOptimization“ würde typischerweise in mehrere Subword-Tokens aufgeteilt, da er nicht als häufige Einheit im Vokabular hinterlegt ist.
Häufige Fragen zu Token
Was ist der Unterschied zwischen Wort und Token?
Ein Wort ist eine linguistische Einheit, ein Token ist eine technische Verarbeitungseinheit eines Modells. Ein Wort kann aus mehreren Tokens bestehen. Tokens sind daher feiner granular als Wörter.
Warum sind Tokens für LLMs wichtig?
LLMs berechnen Wahrscheinlichkeiten auf Tokenebene. Jede Eingabe und Ausgabe wird als Token-Sequenz verarbeitet. Die Modellarchitektur operiert ausschließlich auf dieser Repräsentation.
Wie beeinflussen Tokens die Kosten von KI-Systemen?
Viele KI-Anbieter berechnen Kosten pro verarbeitetem Token. Je länger der Text, desto höher die Tokenanzahl und damit die Verarbeitungskosten. Auch das Kontextfenster wird in Tokens gemessen.
Gibt es eine feste Anzahl an Tokens pro Wort?
Es gibt keine feste Relation zwischen Wörtern und Tokens. Häufige kurze Wörter sind oft ein einzelnes Token, komplexe oder seltene Begriffe werden in mehrere Tokens zerlegt. Die genaue Aufteilung hängt vom verwendeten Tokenisierungsverfahren ab.
Verwandte Begriffe
Tokenisierung
Byte-Pair-Encoding
Subword-Modell
Large Language Model
Kontextfenster
Transformer
Embedding
Prompt
Inference