Chunking

« Zurück zum Glossar Index

Chunking bezeichnet die strukturierte Aufteilung von Texten oder Daten in kleinere, semantisch kohärente Einheiten (Chunks), um deren Verarbeitung durch Such- und KI-Systeme zu optimieren. Ziel ist die Verbesserung von Retrieval-Qualität, Kontextkontrolle und Modellleistung. Chunking ist ein zentraler Bestandteil von Retrieval-Augmented-Generation-Architekturen.

Funktionsweise und Einordnung

Large Language Models arbeiten mit begrenzten Kontextfenstern. Lange Dokumente müssen daher in verarbeitbare Segmente zerlegt werden.

Es existieren unterschiedliche Chunking-Strategien:

Fixed-Size Chunking: Aufteilung nach Token- oder Zeichenanzahl
Sentence-Based Chunking: Segmentierung nach Satzgrenzen
Semantic Chunking: Aufteilung nach thematischer Kohärenz
Sliding Window mit Overlap: Überlappende Segmente zur Kontextstabilisierung

Die Wahl der Chunk-Größe beeinflusst:

Retrieval-Präzision
Kontexttiefe
Redundanz
Tokenverbrauch

Zu kleine Chunks verlieren Kontext. Zu große Chunks reduzieren Retrieval-Genauigkeit. Optimales Chunking balanciert Kohärenz und Granularität.

Strategische Bedeutung für SEO und AI-Search

In AI-Search-Architekturen werden Inhalte häufig chunkbasiert indexiert.

Implikationen für Generative Engine Optimization:

Klare Abschnittsstruktur erleichtert semantisches Chunking.
Prägnante Definitionen erhöhen Extrahierbarkeit einzelner Segmente.
Thematische Kohärenz stabilisiert Vektorrepräsentationen.
Überschriften verbessern Chunk-Grenzen.

In Retrieval-Augmented-Generation-Systemen bestimmt Chunking maßgeblich, welche Textsegmente in die Generierung einfließen. Inhalte mit klarer Struktur sind besser chunkbar und damit maschinell nutzbarer.

Chunking ist somit ein technischer Hebel für Sichtbarkeit in generativen Suchsystemen.

Beispiel

Ein 2.000-Wörter-Artikel über „Semantische Suche“ kann in folgende Chunks zerlegt werden:

Definition
Technische Grundlagen
Vergleich mit Keyword-Suche
SEO-Relevanz
Praxisbeispiel

Jeder Abschnitt bildet eine semantisch geschlossene Einheit und kann separat retrievt werden.

Häufige Fragen zu Chunking

Warum ist Chunking für LLMs notwendig?

LLMs besitzen begrenzte Kontextfenster. Lange Dokumente können nicht vollständig verarbeitet werden. Chunking ermöglicht die segmentierte Verarbeitung und gezielte Kontextzufuhr.

Wie groß sollte ein Chunk sein?

Die optimale Größe hängt vom Modell und Anwendungsfall ab. Typische Bereiche liegen zwischen 200 und 800 Tokens. Entscheidender als die Länge ist semantische Kohärenz.

Was ist der Unterschied zwischen Fixed-Size und Semantic Chunking?

Fixed-Size Chunking teilt Texte nach technischer Länge. Semantic Chunking orientiert sich an inhaltlichen Grenzen. Semantische Segmentierung liefert meist präzisere Retrieval-Ergebnisse.

Welche Rolle spielt Chunking in Retrieval-Augmented Generation?

RAG-Systeme indexieren Dokumente chunkweise. Nur relevante Chunks werden in den Generierungsprozess eingespeist. Die Qualität des Chunkings beeinflusst somit direkt Antwortpräzision.