Tokenisierung

« Zurück zum Glossar Index

Tokenisierung bezeichnet den Prozess der Zerlegung eines Textes in kleinere, maschinell verarbeitbare Einheiten, sogenannte Tokens. Diese Einheiten können Wörter, Wortbestandteile, Zeichen oder Satzzeichen sein. Tokenisierung ist ein grundlegender Vorbereitungsschritt für die Verarbeitung durch Sprachmodelle.

Funktionsweise und Einordnung

Bevor ein Text von einem Large Language Model verarbeitet werden kann, wird er tokenisiert. Dabei wird die Zeichenkette in diskrete Segmente zerlegt.

Typische Verfahren:

  • Whitespace-Tokenisierung: Trennung anhand von Leerzeichen.
  • Subword-Tokenisierung: Zerlegung in häufige Wortbestandteile.
  • Byte-Pair-Encoding (BPE) oder ähnliche Algorithmen.

Moderne LLMs nutzen meist Subword-Ansätze. Häufige Wörter werden als einzelnes Token gespeichert, seltene oder komplexe Begriffe in mehrere Segmente aufgeteilt.

Beispiel:

Das Wort „Suchmaschinenoptimierung“ kann in mehrere Subword-Tokens zerlegt werden, da es selten als Ganzes im Vokabular vorkommt.

Die Tokenisierung beeinflusst:

  • Kontextlänge (gemessen in Tokens)
  • Rechenaufwand
  • Kosten bei API-basierten Modellen

Sie ist damit eine zentrale technische Grundlage jeder LLM-Interaktion.

Strategische Bedeutung für SEO und AI-Search

Tokenisierung beeinflusst, wie Inhalte intern repräsentiert werden.

Relevanz für Generative Engine Optimization:

  • Lange Komposita können in mehrere Tokens zerlegt werden.
  • Klar strukturierte Sprache reduziert unnötige Tokenkomplexität.
  • Kontextfensterbegrenzungen wirken sich auf Informationsdichte aus.

AI-Search-Systeme analysieren Inhalte tokenbasiert, bevor sie semantische Vektoren berechnen. Inhalte mit klarer Terminologie und konsistenter Wortwahl erzeugen stabilere Repräsentationen.

Tokenisierung ist damit die operative Brücke zwischen Text und Modellverarbeitung.

Beispiel

Satz:
Embeddings verbessern die semantische Suche.“

Mögliche Tokenisierung:

  • „Embedding“
  • „s“
  • „verbessern“
  • „die“
  • „semantische“
  • „Suche“
  • „.“

Die genaue Aufteilung hängt vom verwendeten Tokenisierungsverfahren ab.

Häufige Fragen zu Tokenisierung

Was ist der Unterschied zwischen Tokenisierung und Parsing?

Tokenisierung zerlegt Text in elementare Einheiten. Parsing analysiert anschließend die grammatikalische Struktur dieser Einheiten. Tokenisierung ist ein vorbereitender Schritt für weitergehende Analysen.

Warum verwenden moderne Modelle Subword-Tokenisierung?

Subword-Tokenisierung reduziert die Größe des Vokabulars und erhöht Flexibilität. Auch unbekannte oder neue Wörter können durch Kombination vorhandener Segmente verarbeitet werden. Das verbessert Generalisierungsfähigkeit.

Beeinflusst Tokenisierung die Kosten von KI-Anwendungen?

Viele KI-Anbieter berechnen Nutzung auf Basis verarbeiteter Tokens. Eine höhere Tokenanzahl führt zu höherem Rechenaufwand und höheren Kosten. Effiziente Formulierungen können Tokenverbrauch reduzieren.

Ist Tokenisierung sprachabhängig?

Ja, Tokenisierung hängt von Sprache und Schriftsystem ab. Komposita in deutschen Texten werden anders behandelt als isolierte Wortformen im Englischen. Das verwendete Modell bestimmt die konkrete Zerlegungslogik.

Verwandte Begriffe

Token
Embeddings
Large Language Model
Byte-Pair-Encoding
Subword-Modell
Kontextfenster
Transformer
Semantische Suche
Generative Engine Optimization

« Zurück zum Glossar Index