Transformer-Architektur

Was ist die Transformer-Architektur?

Die Transformer-Architektur ist eine fortschrittliche Deep-Learning-Architektur, die 2017 von Forschern bei Google im Paper „Attention Is All You Need“ vorgestellt wurde.

Sie revolutionierte die Verarbeitung sequenzieller Daten, insbesondere im Bereich der natürlichen Sprachverarbeitung.

Im Gegensatz zu früheren Architekturen wie rekurrenten neuronalen Netzen (RNNs) oder Long Short-Term Memory-Netzwerken (LSTMs) verzichtet der Transformer vollständig auf rekurrente Strukturen und basiert stattdessen auf einem Aufmerksamkeitsmechanismus (Attention).

Wie ist die Transformer-Architektur aufgebaut?

Die Transformer-Architektur besteht aus zwei Hauptkomponenten: dem Encoder und dem Decoder.

In der ursprünglichen Implementierung wurden sechs Encoder- und sechs Decoder-Blöcke verwendet, die in Serie geschaltet sind.

Encoder-Komponente

Ein Encoder-Block besteht aus folgenden Schichten:

Multi-Head-Self-Attention: Ermöglicht dem Modell, Beziehungen zwischen allen Wörtern einer Eingabesequenz zu erfassen
Feed-Forward-Netzwerk: Verarbeitet die Ausgabe der Attention-Schicht weiter
Normalisierungsschichten: Stabilisieren das Training

Decoder-Komponente

Ein Decoder-Block enthält:

Masked Multi-Head-Self-Attention: Verhindert, dass bei der Vorhersage auf zukünftige Tokens zugegriffen wird
Multi-Head-Cross-Attention: Verbindet Encoder und Decoder
Feed-Forward-Netzwerk: Ähnlich wie im Encoder
Normalisierungsschichten: Nach jeder Hauptkomponente

Wie funktioniert der Attention-Mechanismus?

Der Attention-Mechanismus ist das Herzstück der Transformer-Architektur. Er ermöglicht es dem Modell, sich auf unterschiedliche Teile einer Eingabesequenz zu konzentrieren.

Der Mechanismus arbeitet mit drei Hauptkomponenten:

Query (Q): Was gesucht wird
Key (K): Womit verglichen wird
Value (V): Was zurückgegeben wird

Durch die Berechnung der Ähnlichkeit zwischen Queries und Keys wird bestimmt, welche Values stärker gewichtet werden sollen. Dies erlaubt dem Modell, kontextabhängige Bedeutungen zu erfassen.

Beispielsweise kann in den Sätzen „Er goss den Krug in den Becher und füllte ihn“ und „Er goss den Krug in den Becher und leerte ihn“ das Wort „ihn“ unterschiedlich interpretiert werden – einmal bezieht es sich auf den Becher, einmal auf den Krug.

Was ist Positional Encoding?

Da der Attention-Mechanismus die Sequenzreihenfolge ignoriert, werden in der Transformer-Architektur Positionskodierungen verwendet.

Diese geben dem Modell Informationen über die Position jedes Tokens in der Sequenz. In der ursprünglichen Architektur werden Sinuskurven unterschiedlicher Wellenlängen verwendet:

Absolute Positional Encoding: Verwendet Sinusfunktionen mit verschiedenen Frequenzen
Rotary Positional Embedding (RoPE): Eine fortgeschrittene Variante, die auf Rotationsmatrizen basiert

Welche Vorteile bietet die Transformer-Architektur?

Die Transformer-Architektur bietet mehrere entscheidende Vorteile:

Parallelisierbarkeit: Alle Wörter oder Token können parallel verarbeitet werden
Erfassung von Langzeitabhängigkeiten: Kann Beziehungen zwischen weit entfernten Wörtern erkennen
Skalierbarkeit: Ermöglicht das Training immer größerer Modelle
Vielseitigkeit: Anwendbar auf verschiedene Aufgaben wie Übersetzung, Textgenerierung und Zusammenfassung

Wie werden Transformer in der Praxis eingesetzt?

Transformer bilden die Grundlage für zahlreiche moderne KI-Modelle:

Maschinelle Übersetzung: Umwandlung von Text von einer Sprache in eine andere
Textgenerierung: Erstellung von kohärentem Text basierend auf einem Prompt
Textzusammenfassung: Komprimierung längerer Texte in kürzere Zusammenfassungen
Bildverarbeitung: Anwendung der Transformer-Prinzipien auf visuelle Daten

In der Praxis werden oft nur Teile der Architektur verwendet – entweder nur der Encoder oder nur der Decoder, je nach Anwendungsfall.

Häufige Fragen (FAQ)

Wer hat die Transformer-Architektur entwickelt?

Die Transformer-Architektur wurde 2017 von Forschern bei Google entwickelt und im Paper „Attention Is All You Need“ vorgestellt.

Warum heißt es „Attention is all you need“?

Der Titel betont, dass die Architektur ausschließlich auf dem Attention-Mechanismus basiert und keine rekurrenten oder faltenden Strukturen benötigt.

Welche bekannten KI-Modelle basieren auf der Transformer-Architektur?

Bekannte Modelle wie GPT (Generative Pre-trained Transformer) und BERT (Bidirectional Encoder Representations from Transformers) basieren auf der Transformer-Architektur.

Wie unterscheidet sich ein Transformer von früheren Modellen wie RNNs?

Transformer verarbeiten Sequenzen parallel statt sequentiell und können daher effizienter trainiert werden und längere Abhängigkeiten erfassen.

Kann die Transformer-Architektur auch für andere Datentypen als Text verwendet werden?

Ja, Transformer werden inzwischen erfolgreich für Bild-, Audio- und sogar Proteinsequenzdaten eingesetzt.