Sora
Was ist Sora?
Sora ist eine von OpenAI entwickelte generative künstliche Intelligenz, die auf die Erstellung von Videos aus Texteingaben spezialisiert ist.
Das Text-zu-Video-Modell akzeptiert Textbeschreibungen (Prompts) und generiert daraus kurze Videoclips in fotorealistischer Qualität, die den Beschreibungen der Nutzer entsprechen.
Der Name leitet sich vom japanischen Wort für „Himmel“ ab, was das „grenzenlose kreative Potenzial“ des Modells verdeutlichen soll.
Wie funktioniert Sora?
Sora nutzt einen diffusionsbasierten Ansatz, bei dem ein Video zunächst aus statischem Rauschen erzeugt und dann schrittweise verfeinert wird.
Das Modell verwendet eine Transformer-Architektur ähnlich wie GPT und stellt Videos und Bilder als Sammlungen kleinerer Dateneinheiten dar, die als „Patches“ bezeichnet werden.
Durch diese Technik kann Sora Videos in verschiedenen Dauern, Auflösungen und Seitenverhältnissen generieren und dabei komplexe Szenen mit mehreren Charakteren und spezifischen Bewegungen erstellen.
Wann wurde Sora veröffentlicht?
Sora wurde am 9. Dezember 2024 offiziell veröffentlicht und ist seitdem für Abonnenten von ChatGPT Plus und ChatGPT Pro zugänglich.
Seit März 2025 ist der Dienst auch in der EU, im Vereinigten Königreich, in der Schweiz sowie in Norwegen, Liechtenstein und Island verfügbar.
Zuvor hatte OpenAI das Modell einer kleinen Gruppe von Kreativen zugänglich gemacht, um Feedback zu sammeln.
Welche Funktionen bietet Sora?
Sora kann nicht nur Videos aus Textbeschreibungen generieren, sondern auch Bilder animieren und bestehende Videos remixen.
Das Modell versteht komplexe Sprachanweisungen und kann überzeugende Charaktere mit lebendigen Emotionen erzeugen sowie mehrere Einstellungen innerhalb eines Videos erstellen, die Charaktere und visuellen Stil konsistent beibehalten.
Welche Einschränkungen hat Sora?
Trotz seiner Fähigkeiten hat Sora einige Schwächen. Das Modell kann manchmal physikalisch unplausible Bewegungen erzeugen, Tiere oder Personen können spontan erscheinen (besonders in Szenen mit vielen Entitäten), und es kann Schwierigkeiten haben, komplexe Interaktionen zwischen Objekten und mehreren Charakteren zu simulieren.
Wie ist Sora verfügbar?
Sora ist für Abonnenten von ChatGPT Plus und ChatGPT Pro zugänglich.
Plus-Nutzer können monatlich bis zu 50 priorisierte Videos in 720p-Auflösung mit einer Dauer von bis zu fünf Sekunden erstellen, während Pro-Nutzern bis zu 500 priorisierte Videos zur Verfügung stehen.
Mit der Einführung von Sora Turbo wurde zudem eine deutlich schnellere Generierung ermöglicht.
Welche Auswirkungen hat Sora?
Die Veröffentlichung von Sora hat in der Film- und Werbeindustrie breite Diskussionen ausgelöst.
Neben Begeisterung über neue kreative Möglichkeiten gibt es auch Bedenken bezüglich möglichen Missbrauchs zur Erstellung von Deepfakes oder zur Verbreitung nicht jugendfreier Inhalte.
Um Missbrauch vorzubeugen, enthalten alle generierten Inhalte sichtbare Wasserzeichen und C2PA-Metadaten.
Häufige Fragen (FAQ)
Was bedeutet der Name Sora?
Der Name Sora stammt aus dem Japanischen und bedeutet „Himmel“, was das grenzenlose kreative Potenzial des Modells symbolisieren soll.
Wie unterscheidet sich Sora von anderen Video-KI-Modellen?
Sora baut auf früherer Forschung zu DALL·E und GPT-Modellen auf und verwendet die Recaptioning-Technik von DALL·E 3, um hochdeskriptive Beschreibungen für visuelle Trainingsdaten zu generieren.
Wie lange können mit Sora generierte Videos sein?
Pro-Abonnenten können Videos in 1080p mit einer Länge von bis zu 20 Sekunden erzeugen, während Plus-Nutzer kürzere Videos mit bis zu fünf Sekunden erstellen können.
Welche Eingabeformate akzeptiert Sora?
Sora kann Videos aus Textbeschreibungen, bestehenden Bildern oder Videos generieren und diese animieren oder erweitern.
Verwandte Begriffe
- OpenAI
- Künstliche Intelligenz
- Generative KI
- Text-zu-Video
- Diffusionsmodell
- ChatGPT
- DALL-E
- Deepfake
- Videobearbeitung
- Transformer-Architektur