Chunk

« Zurück zum Glossar Index

Ein Chunk ist eine semantisch oder technisch definierte Texteinheit, die als eigenständiges Segment in Such- und KI-Systemen verarbeitet wird. Er entsteht durch Chunking und dient als kleinste adressierbare Einheit für Retrieval- und Generierungsprozesse. Ziel ist die präzisere Kontextsteuerung in Sprachmodellen.

Funktionsweise und Einordnung

Ein Chunk repräsentiert einen abgegrenzten Abschnitt eines größeren Dokuments. Er kann definiert werden durch:

  • feste Token- oder Zeichenlänge
  • Satz- oder Absatzgrenzen
  • thematische Kohärenz
  • strukturierte Überschriften

In Retrieval-Systemen wird nicht das gesamte Dokument, sondern der einzelne Chunk indexiert. Bei einer Suchanfrage werden relevante Chunks identifiziert und in den Kontext eines Large Language Models eingespeist.

Ein Chunk ist somit:

  • die operative Einheit im Information Retrieval
  • die Kontextquelle in Retrieval-Augmented-Generation-Systemen
  • ein Vektorelement in Embedding-basierten Architekturen

Die Qualität eines Chunks hängt von Kohärenz, Klarheit und struktureller Abgrenzung ab.

Strategische Bedeutung für SEO und AI-Search

In AI-Search-Systemen werden Inhalte häufig chunkbasiert verarbeitet.

Implikationen für Generative Engine Optimization:

  • Jede inhaltliche Einheit sollte für sich verständlich sein.
  • Definitionen müssen isoliert extrahierbar bleiben.
  • Überschriften strukturieren Chunk-Grenzen.
  • Thematische Vermischung reduziert Chunk-Qualität.

Ein schlecht strukturierter Text erzeugt unscharfe Chunks. Ein klar gegliederter Text erhöht die Wahrscheinlichkeit, dass einzelne Abschnitte korrekt retrievt und in generative Antworten integriert werden.

Sichtbarkeit verschiebt sich von Dokumentebene auf Chunk-Ebene.

Beispiel

Ein Glossarartikel zu „Semantische Suche“ enthält:

  • Definition
  • Funktionsweise
  • SEO-Bedeutung
  • FAQ

Jeder dieser Abschnitte kann als eigener Chunk indexiert werden. Bei einer Frage nach der Definition wird nur der Definitions-Chunk retrievt.

Häufige Fragen zu Chunk

Was unterscheidet einen Chunk von einem Absatz?

Ein Absatz ist eine visuelle Texteinheit. Ein Chunk ist eine funktionale Verarbeitungseinheit in Such- und KI-Systemen. Ein Chunk kann einem Absatz entsprechen, muss es aber nicht.

Wie groß sollte ein Chunk sein?

Die Größe hängt vom Anwendungsfall und Modellkontext ab. Typische Bereiche liegen zwischen 200 und 800 Tokens. Entscheidend ist inhaltliche Geschlossenheit.

Warum wird nicht das gesamte Dokument verwendet?

LLMs besitzen begrenzte Kontextfenster. Die Verarbeitung kompletter Dokumente wäre ineffizient. Chunking ermöglicht gezielte Kontextzufuhr.

Welche Rolle spielt ein Chunk in RAG-Systemen?

In Retrieval-Augmented Generation werden einzelne Chunks retrievt und dem Modell als Kontext bereitgestellt. Die Qualität dieser Segmente beeinflusst direkt die Antwortpräzision.

Verwandte Begriffe

Chunking
Retrieval-Augmented Generation
Information Retrieval
Embeddings
Vektordatenbank
Kontextfenster
Large Language Model
Grounding
Generative Engine Optimization

« Zurück zum Glossar Index