Zum Hauptinhalt springen

Stable Diffusion

« Zurück zum Glossar Index

Was ist Stable Diffusion?

Stable Diffusion ist ein Deep-Learning-Text-zu-Bild-Generator, der zur Kategorie der generativen Künstlichen Intelligenz gehört.

Es handelt sich um ein KI-Modell, das digitale Bilder auf Basis natürlichsprachiger Textanweisungen (Prompts) erzeugen kann.

Entwickelt wurde Stable Diffusion von Stability AI in Zusammenarbeit mit der CompVis-Gruppe der Ludwig-Maximilians-Universität München und Runway.

Die erste Version wurde am 22. August 2022 veröffentlicht, während die aktuelle Version 3.5 am 23. Oktober 2024 erschienen ist.

Wie funktioniert Stable Diffusion?

Stable Diffusion basiert auf einem latenten Diffusionsmodell (LDM), einer speziellen Art von tiefem generativen neuronalen Netzwerk.

Das Modell besteht aus drei Hauptkomponenten:

  1. Variational Autoencoder (VAE) – komprimiert Bilder vom Pixelraum in einen kleineren latenten Raum
  2. U-Net – entfernt schrittweise das Rauschen aus der latenten Darstellung
  3. Text-Encoder – wandelt Textbeschreibungen in Einbettungen um, die das Modell steuern

Der Prozess funktioniert vereinfacht so: Das Modell fügt Bildern Rauschen hinzu, bis sie zu reinem Rauschen werden, und lernt dann, diesen Prozess umzukehren. Bei der Bilderzeugung wird die „Entrauschung“ durch Textbeschreibungen gesteuert, die über den CLIP ViT-L/14 Text-Encoder verarbeitet werden.

Welche Fähigkeiten hat Stable Diffusion?

Stable Diffusion kann:

  • Text-zu-Bild-Generierung – Erstellen neuer Bilder basierend auf Textbeschreibungen
  • Inpainting – Teile eines Bildes ersetzen oder ergänzen
  • Outpainting – Bilder über ihre ursprünglichen Grenzen hinaus erweitern
  • Bild-zu-Bild-Übersetzung – Bestehende Bilder basierend auf Textanweisungen modifizieren

Das Modell ist mit 860 Millionen Parametern im U-Net und 123 Millionen im Text-Encoder vergleichsweise leichtgewichtig und kann auf Consumer-Hardware mit mindestens 8 GB VRAM (optimal sind 10 GB oder mehr) betrieben werden.

Wie unterscheidet sich Stable Diffusion von anderen KI-Bildgeneratoren?

Der größte Unterschied zu Konkurrenten wie DALL-E und Midjourney liegt in der Open-Source-Natur von Stable Diffusion.

Während andere Modelle nur über Cloud-Dienste zugänglich sind, können Code und Modellgewichte von Stable Diffusion heruntergeladen und lokal ausgeführt werden.

Dies ermöglicht eine größere Anpassbarkeit und Kontrolle für Entwickler und Nutzer. Stable Diffusion wurde mit einem Subset der LAION-5B-Datenbank trainiert, die Millionen von Bild-Text-Paaren enthält.

Das Training erfolgte mit Unterstützung von Stability AI, EleutherAI und LAION.

Wie kann man Stable Diffusion nutzen?

Es gibt verschiedene Möglichkeiten, Stable Diffusion zu verwenden:

  • Webbasierte Oberflächen wie DreamStudio von Stability AI
  • Lokale Installation über verschiedene Open-Source-Implementierungen
  • API-Zugang für die Integration in eigene Anwendungen
  • Cloud-Partner-Ökosysteme ohne Notwendigkeit zusätzlicher Infrastruktur

Besonders beliebt ist die Web-UI von AUTOMATIC1111, die zahlreiche Funktionen und Erweiterungen bietet.

Häufige Fragen (FAQ)

Was ist ein Prompt bei Stable Diffusion?

Ein Prompt ist die Textanweisung, die dem Modell mitteilt, welches Bild es generieren soll.

Welche Hardware benötige ich für Stable Diffusion?

Für eine flüssige Nutzung wird eine GPU mit mindestens 8 GB VRAM empfohlen, optimal sind 10 GB oder mehr.

Ist Stable Diffusion kostenlos?

Die Basisversion ist Open Source und kostenlos nutzbar, während kommerzielle Dienste wie DreamStudio kostenpflichtig sein können.

Wie kann ich die Qualität der generierten Bilder verbessern?

Durch präzisere Prompts, Anpassung der Sampling-Schritte und des Guidance-Scale-Werts sowie negative Prompts.

Welche Lizenz hat Stable Diffusion?

Stable Diffusion wird unter der Stability AI Community License veröffentlicht.

Verwandte Begriffe

  1. Diffusionsmodell
  2. Generative KI
  3. Text-zu-Bild-Generator
  4. Deep Learning
  5. Latenter Raum
  6. Neuronales Netzwerk
  7. Prompt Engineering
  8. CLIP (Contrastive Language-Image Pre-Training)
  9. Inpainting
  10. Stability AI
« Zurück zum Glossar Index