Allgemein

GPT-5.4: OpenAIs neues Flaggschiff mit Computer Use und 1M Kontext

OpenAI hat GPT-5.4 released: Computer Use, 1M Context Window, und neue Benchmark-Rekorde. Was das Modell kann, was es kostet und wo es Claude schlägt.

OpenAI hat mit GPT-5.4 sein bisher ambitioniertestes Modell veröffentlicht. Zum ersten Mal vereint ein einzelnes OpenAI-Modell Reasoning, Coding und Computer Use in einem Paket. Dazu kommt ein Context Window von einer Million Tokens. Die Frage ist: Reicht das um Claude Opus 4.6 und Gemini 3.1 Pro einzuholen?

Was GPT-5.4 mitbringt

Inhaltsangabe

Das Modell kombiniert Fähigkeiten die bisher auf separate Modelle verteilt waren. Computer Use war vorher ein Codex-exklusives Feature, jetzt ist es nativ in GPT-5.4 integriert. Das heißt: Das Modell kann deinen Bildschirm sehen, Maus und Tastatur steuern und eigenständig durch Anwendungen navigieren. Dazu kommen ein 1M Token Context Window und verbessertes Reasoning.

Laut NxCode gibt es zwei Varianten: GPT-5.4 Standard ab $2.50 pro Million Input-Tokens und GPT-5.4 Pro ab $30 pro Million Input-Tokens. Die Pro-Version liefert bei Benchmarks deutlich stärkere Ergebnisse, ist aber auch 12x teurer.

Wo GPT-5.4 steht: Die Benchmarks

Die Benchmark-Ergebnisse zeichnen ein differenziertes Bild. Auf dem Artificial Analysis Intelligence Index erreicht GPT-5.4 Pro fast Gleichstand mit Gemini 3.1 Pro und führt bei Coding und Agentic Tasks. Bei ARC-AGI-2, dem Reasoning-Benchmark, springt die Pro-Version auf 83.3% und überholt damit die meisten Konkurrenten.

Aber es gibt einen klaren Schwachpunkt: Beim SWE-Bench, dem praxisnahen Coding-Benchmark, liegt Claude Opus 4.6 mit 80.8% weiter vorne. GPT-5.4 kommt hier auf 57.7%. Für reine Coding-Aufgaben bleibt Claude die bessere Wahl. GPT-5.4 punktet dafür beim Terminal-Bench 2.0 mit 75.1% und bei Computer Use Tasks.

GPT-5.4 vs. Claude Opus 4.6 vs. Gemini 3.1 Pro

Gemini 3.1 Pro bleibt das stärkste Allround-Modell mit 77.1% auf ARC-AGI-2 und der besten Balance über alle Benchmarks hinweg. Claude Opus 4.6 dominiert beim Coding mit dem höchsten SWE-Bench Score und dem stabilsten 1M Context Window. GPT-5.4 bringt als einziges Modell Computer Use, Coding und Reasoning in einem Paket zusammen, zahlt dafür aber bei den Einzeldisziplinen einen Preis.

Für die meisten Nutzer kommt es auf den Use Case an. Wer autonome Agenten bauen will die Software bedienen sollen, findet in GPT-5.4 das vollständigste Paket. Wer maximale Coding-Qualität braucht, fährt mit Claude besser. Wer ein breites Spektrum an Aufgaben abdecken will, greift zu Gemini.

Mein Take

GPT-5.4 ist OpenAIs Antwort auf die Computer-Use-Features von Claude und Gemini, und die Integration in ein einziges Modell ist clever. Ob das die höheren Preise der Pro-Version rechtfertigt, hängt stark vom Einsatzgebiet ab. Für Agent-Workflows mit Computer-Steuerung ist GPT-5.4 die beste Option von OpenAI. Für alles andere gibt es günstigere und teilweise bessere Alternativen.

Du willst das richtige KI-Modell für dein Unternehmen finden? Kostenlosen Analyse-Call buchen