Zum Hauptinhalt springen

DeepSeek R1

« Zurück zum Glossar Index

Was ist DeepSeek R1?

DeepSeek R1 ist ein fortschrittliches KI-Sprachmodell, das vom chinesischen Start-up DeepSeek am 20. Januar 2025 veröffentlicht wurde.

Es handelt sich um ein Open-Source-Modell unter MIT-Lizenz, das speziell für komplexe Denkaufgaben und Problemlösungen entwickelt wurde und mit führenden proprietären KI-Modellen wie OpenAI o1 konkurriert.

Wie ist die technische Architektur von DeepSeek R1?

DeepSeek R1 basiert auf einer Mixture-of-Experts-Architektur (MoE) mit insgesamt 671-685 Milliarden Parametern, von denen jedoch nur etwa 37-40 Milliarden gleichzeitig aktiv sind.

Diese Architektur ermöglicht einen deutlich reduzierten Ressourcenbedarf, da für bestimmte Aufgaben jeweils nur spezialisierte Teile des Modells aktiviert werden.

Das Modell unterstützt eine Kontextlänge von 128K Token und nutzt fortschrittliche Reinforcement-Learning-Techniken.

Welche Leistungsfähigkeit bietet DeepSeek R1?

DeepSeek R1 erzielt beeindruckende Ergebnisse in verschiedenen Benchmarks. Bei mathematischen Aufgaben erreicht es eine Genauigkeit von 97,3% auf MATH-500 und eine Bestehensquote von 79,8% bei der AIME 2024.

Im Bereich Programmierung übertrifft es 96,3% der Codeforces-Teilnehmer. Diese Leistungen positionieren DeepSeek R1 auf einem mit OpenAI o1 vergleichbaren Niveau, jedoch zu deutlich geringeren Kosten.

Welche Modellvarianten gibt es von DeepSeek R1?

DeepSeek hat mehrere Varianten des R1-Modells veröffentlicht:

  • DeepSeek-R1 (Hauptmodell)
  • DeepSeek-R1-Zero (gleiche Größe wie das Hauptmodell, aber mit weniger Training)
  • Verschiedene destillierte Versionen mit geringerer Parameterzahl:
    • DeepSeek-R1-Distill-Qwen-32B
    • DeepSeek-R1-Distill-Llama-70B
    • DeepSeek-R1-Distill-Qwen-14B
    • DeepSeek-R1-Distill-Llama-8B
    • DeepSeek-R1-Distill-Qwen-7B
    • DeepSeek-R1-Distill-Qwen-1.5B

Die destillierten Versionen basieren auf den Modellen Qwen von Alibaba und LLaMa von Meta und können auch auf weniger leistungsstarker Hardware betrieben werden.

Wie unterscheidet sich DeepSeek R1 von anderen KI-Modellen?

DeepSeek R1 zeichnet sich durch seinen Fokus auf Reasoning-Fähigkeiten aus.

Im Gegensatz zu vielen anderen Modellen verwendet es einen speziellen Ansatz des verstärkenden Lernens (Reinforcement Learning), bei dem das Modell verschiedene Lösungswege für Probleme generiert und durch ein regelbasiertes Belohnungssystem bewertet wird.

Dies führt zu einer besonders ausgeprägten Fähigkeit, komplexe Probleme zu lösen und logische Schlussfolgerungen zu ziehen.

Ein weiteres Unterscheidungsmerkmal ist der sichtbare Denkprozess: DeepSeek R1 nutzt Chain-of-Thought-Reasoning, wobei es zunächst über ein Problem nachdenkt, bevor es eine Antwort ausgibt. Dies führt zu längeren Antwortzeiten, aber qualitativ hochwertigeren Lösungen.

Wie ist die Preisgestaltung von DeepSeek R1?

DeepSeek R1 bietet eine äußerst wettbewerbsfähige Preisstruktur:

  • Eingabe-Token (Cache-Treffer): $0,14 pro Million Token
  • Eingabe-Token (Cache-Miss): $0,55 pro Million Token
  • Ausgabe-Token: $2,19 pro Million Token

Im Vergleich dazu ist OpenAI o1 mit $15 pro Million Eingabe-Token und $60 pro Million Ausgabe-Token etwa 90-95% teurer. Diese Kosteneffizienz macht DeepSeek R1 zu einer attraktiven Alternative für Entwickler und Unternehmen.

Wie kann man DeepSeek R1 nutzen?

DeepSeek R1 ist auf verschiedene Arten zugänglich:

  • Als gehosteter Chatbot über Webbrowser unter chat.deepseek.com
  • Über eine mobile App
  • Über eine API mit OpenAI-kompatiblem Endpunkt
  • Als lokal installierbare Version (insbesondere die destillierten Modelle)

Die API kann durch Setzen des Parameters „model=deepseek-reasoner“ genutzt werden und bietet ein intelligentes Zwischenspeichersystem, das die Kosten für wiederholte Abfragen reduziert.

Wer steht hinter DeepSeek R1?

DeepSeek R1 wurde vom chinesischen Start-up DeepSeek entwickelt, das 2023 gegründet wurde. CEO des Unternehmens ist Liang Wenfeng, der gleichzeitig Mitgründer des chinesischen Hedgefonds High-Flyer ist, welcher DeepSeek finanziert. Der Firmensitz befindet sich in Hangzhou, Zhejiang, China.

Häufige Fragen (FAQ)

Was macht DeepSeek R1 besonders?

DeepSeek R1 ist das weltweit erste rein durch Reinforcement Learning entwickelte Open-Source-Argumentationsmodell mit Leistungen auf dem Niveau proprietärer Spitzenmodelle.

Für welche Anwendungen eignet sich DeepSeek R1 besonders?

DeepSeek R1 eignet sich besonders für komplexe mathematische Probleme, anspruchsvolle Programmieraufgaben und Aufgaben, die logisches Denken und Schlussfolgern erfordern.

Wie schnell arbeitet DeepSeek R1?

DeepSeek R1 braucht in der Regel länger für Antworten als andere Modelle, da es einen ausführlichen Denkprozess durchläuft, der mehrere Minuten dauern kann.

Kann DeepSeek R1 kommerziell genutzt werden?

Ja, DeepSeek R1 steht unter MIT-Lizenz und kann für beliebige Zwecke, einschließlich kommerzieller Nutzung, eingesetzt werden.

Welche Sprachen unterstützt DeepSeek R1?

DeepSeek R1 unterstützt mehrere Sprachen und bietet mehrsprachiges Verständnis, wobei der Fokus auf Englisch liegt.

Verwandte Begriffe

  1. Large Language Model (LLM)
  2. Mixture of Experts (MoE)
  3. Reinforcement Learning (RL)
  4. Chain-of-Thought Reasoning
  5. Open-Source KI
  6. DeepSeek-V3
  7. Wissensdestillation
  8. MIT-Lizenz
  9. KI-API
  10. Transformer-Architektur
« Zurück zum Glossar Index

Ralf Dodler

Ralf Dodler ist Unternehmer, Autor und Inhaber von Dodler Consulting, einem Online-Marketing-Unternehmen mit Sitz in Schwalbach (Saar), das sich auf Suchmaschinenoptimierung und Content-Marketing spezialisiert hat.