| Benchmark (Domäne) |
Metrisch |
GPT-4o |
OpenAI o3 |
GPT-5 |
GPT-5 Pro |
| GPQA Diamond (PhD Science) |
Genauigkeit, bestanden@1 |
77.8% |
83.3% |
85.7% |
88.4% |
| SWE-bench verifiziert (Codierung) |
Bestehen@1 |
30.8% |
52.8% |
74.9% |
N / A |
| AIME 2025 (Wettbewerb Mathematik) |
Pass@1 (mit Werkzeugen) |
42.1 % (Python) |
88.9 % (Python) |
71.0 % (Python) |
94.6 % (Python) |
| HealthBench Hard (Gesundheit) |
Score |
0.0% |
25.5% |
46.2% |
N / A |
| MMMU (Multimodal) |
Genauigkeit, bestanden @1 |
72.2% |
74.4% |
84.2% |
N / A |
Dominanz im wissenschaftlichen und mathematischen Denken
Ein herausragender Erfolg ist die Leistung von GPT-5 Pro bei GPQA Diamond, einem Benchmark, der aus wissenschaftlichen Fragen auf Doktorandenniveau besteht, die selbst für menschliche Experten eine Herausforderung darstellen. Das Modell erreichte ohne den Einsatz externer Tools einen Wert von 88.4 %, was einen neuen SOTA darstellt und einen deutlichen Fortschritt in der Fähigkeit der KI zur echten wissenschaftlichen Problemlösung signalisiert.
Auch in der Mathematik zeigt das Modell beeindruckende Fähigkeiten. Beim Mathematik-Benchmark des AIME 2025-Wettbewerbs erreichte GPT-5 Pro 94.6 %, wenn es mit einem Python-Berechnungstool ausgestattet war. Beim Benchmark des Harvard-MIT Mathematics Tournament (HMMT) erreichte es eine Genauigkeit von 99.6 %. Diese Tests gehen weit über einfache Arithmetik hinaus und erfordern anspruchsvolles, mehrstufiges Denken zur Lösung komplexer Probleme. Dies zeigt die fortgeschrittenen logischen und Problemlösungsfähigkeiten des Modells, insbesondere in der Nutzung einer Programmierumgebung.
Ein Sprung nach vorn für Entwickler und Programmierer
Der Softwareentwickler-Community wird GPT-5 als das „bisher stärkste Codierungsmodell“ des Unternehmens präsentiert. Diese Behauptung wird durch eine Punktzahl von 74.9 % bei SWE-bench Verified untermauert, einem Benchmark, der die Fähigkeit einer KI bewertet, reale Softwareentwicklungsprobleme aus GitHub-Repositories zu lösen. Dieses Ergebnis stellt eine massive Verbesserung gegenüber dem 4 %-Ergebnis von GPT-30.8o im gleichen Test dar.
Über die reinen Leistungskennzahlen hinaus betont die Ankündigung qualitative Verbesserungen. Erste Tester bemerkten Berichten zufolge ein verbessertes „Auge für Ästhetik“ und ein „deutlich besseres Verständnis von Dingen wie Abständen, Typografie und Leerraum“. Dies deutet auf einen Übergang von der Generierung rein funktionalen Codes hin zur Produktion ausgefeilter, ästhetisch ansprechender und produktionsreifer Frontend-Anwendungen hin. Zur Veranschaulichung verweist das Unternehmen auf mehrere Beispiele komplexer Anwendungen, die aus einer einzigen Eingabeaufforderung erstellt wurden, darunter ein „Jumping Ball Runner“-Spiel mit Parallax-Scrolling-Hintergründen, Highscore-Tracking und Comic-Figuren.
Verbessertes Verständnis visueller und multimodaler Eingaben
Die Fähigkeiten von GPT-5 erstrecken sich deutlich auf multimodales Denken. Das Modell erreichte mit einer Genauigkeit von 84.2 % einen neuen SOTA-Wert im MMMU-Benchmark für visuelles Problemlösen auf Hochschulniveau. Auch in der Version für Hochschulabsolventen, MMMU Pro, schnitt es mit 78.4 % gut ab. Diese Ergebnisse deuten auf eine verbesserte Fähigkeit hin, Aufgaben wie das Interpretieren komplexer Diagramme, das Zusammenfassen von Informationen aus Diagrammen und das Beantworten detaillierter Fragen zum Inhalt eines Bildes zu bewältigen.
Das visuelle Verständnis des Modells ist nicht nur allgemeiner Natur. Es zeigt spezialisierte Kompetenz in verschiedenen Formaten und erreichte 84.6 % bei VideoMMMU für videobasiertes Denken, 81.1 % bei CharXiv-Reasoning für die Interpretation wissenschaftlicher Abbildungen und 65.7 % bei ERQA für multimodales räumliches Denken. Diese breite Leistungspalette zeigt, dass die visuelle Intelligenz des Modells für die Verarbeitung komplexer und domänenspezifischer visueller Daten entwickelt wurde.
Mehr als nur Zahlen: Ein leistungsfähigerer und differenzierterer KI-Kollaborateur
Während Benchmark-Ergebnisse die reine Intelligenz hervorheben, legt die GPT-5-Ankündigung den gleichen Schwerpunkt auf qualitative, benutzerorientierte Verbesserungen, die die KI von einem einfachen Werkzeug in einen hochentwickelten Kollaborateur verwandeln sollen.
Fortschritte im kreativen und professionellen Schreiben
Um einen Fortschritt im kreativen Schreiben zu demonstrieren, stellte das Unternehmen einen direkten Vergleich von Gedichten zur Verfügung, die von GPT-4o und GPT-5 zum gleichen Thema generiert wurden: „Eine Witwe in Kyoto findet immer wieder die Socken ihres verstorbenen Mannes an seltsamen Orten.“ Die Analyse stellt fest, dass die GPT-4o-Version einer „vorhersehbaren Struktur und einem vorhersehbaren Reimschema folgt und erzählt, anstatt zu zeigen“.
Im Gegensatz dazu wird die GPT-5-Version für ihren „stärkeren emotionalen Bogen, ihre klare Bildsprache und ihre prägnanten Metaphern“ gelobt, wie etwa die Beschreibung der gefundenen Socken als „schwarze Flaggen eines nicht mehr existierenden Landes“. Dieses Beispiel soll zeigen, dass sich das Modell von der formelhaften Textgenerierung zur Erstellung von Inhalten mit echter „literarischer Tiefe und Rhythmus“ weiterentwickelt hat. Diese erweiterte Fähigkeit findet direkte Anwendung im professionellen Umfeld und macht das Modell zu einem effektiveren Assistenten für das „Verfassen und Bearbeiten von Berichten, E-Mails, Memos und mehr“.
Ein proaktiver „Gedankenpartner“ für Gesundheitsanfragen
Im sensiblen Gesundheitsbereich gilt GPT-5 als das „bisher beste Modell für gesundheitsbezogene Fragen“. Es erreichte einen neuen SOTA-Score von 46.2 % bei HealthBench Hard, einem Benchmark zur Prüfung der KI-Leistung in anspruchsvollen gesundheitsbezogenen Gesprächen.
Noch wichtiger ist, dass die Ankündigung eine grundlegende Veränderung im interaktiven Verhalten des Modells beschreibt. Anstatt passiv Fragen zu beantworten, soll GPT-5 eher als „aktiver Denkpartner“ agieren, der „proaktiv potenzielle Bedenken kennzeichnet und Fragen stellt, um hilfreichere Antworten zu geben“. Dies stellt einen Schritt hin zu einem kollaborativeren und potenziell sichereren Interaktionsmodell für Gesundheitsanfragen dar. Das Unternehmen weist ausdrücklich darauf hin, dass das Tool keinen Arzt ersetzt, sondern Nutzern ermöglichen soll, „Ergebnisse zu verstehen, die richtigen Fragen zu stellen … und Optionen abzuwägen“.
Vertrauen aufbauen: Fokus auf Sicherheit, Ehrlichkeit und Benutzererfahrung
Ein wesentlicher Teil der GPT-5-Ankündigung ist einer Reihe von Funktionen gewidmet, die das Vertrauen der Nutzer stärken sollen. Diese gemeinsamen Bemühungen zur Verbesserung der Zuverlässigkeit lassen sich als Entwicklung eines „Trust Stack“ verstehen, einer Reihe von Kernfunktionen, die die Haupthindernisse für den Einsatz von KI in anspruchsvollen Berufs- und Unternehmensumgebungen beseitigen sollen. Durch die Fokussierung auf Faktizität, Ehrlichkeit und Sicherheit positioniert das Unternehmen Vertrauenswürdigkeit effektiv als zentrales Produktmerkmal, das der reinen Intelligenz ebenbürtig ist.
Halluzinationen und Täuschungen drastisch reduzieren
Das Unternehmen berichtet, dass GPT-5 „deutlich weniger zu Halluzinationen neigt als unsere Vorgängermodelle“. Internen Messungen des Produktionsverkehrs zufolge ist die Wahrscheinlichkeit, dass seine Antworten einen sachlichen Fehler enthalten, um etwa 45 % geringer als bei GPT-4o. Werden die tieferen Denkfähigkeiten genutzt, zeigt das Modell bei offenen sachlichen Fragen einen „starken Rückgang der Halluzinationen, etwa sechsmal weniger als bei o3“.
Um die verbesserte Ehrlichkeit zu demonstrieren, beschreibt die Ankündigung einen Test, bei dem Bilder aus einem multimodalen Benchmark entfernt wurden. Das Vorgängermodell o3 lieferte in 86.7 % der Fälle zuverlässige Antworten zu den nicht vorhandenen Bildern, während GPT-5 dies nur in 9 % der Fälle tat. Ein weiteres eindrucksvolles Beispiel ist eine unmögliche Codierungsaufgabe zum Entsperren eines WLAN-Radios. Das Vorgängermodell behauptete fälschlicherweise, die Aufgabe erledigt zu haben. Im Gegensatz dazu nutzte das neue Modell seinen internen Denkprozess, um zu erkennen, dass die Aufgabe in seiner Sandbox-Umgebung unmöglich war, und kommunizierte diese Einschränkung klar an den Benutzer. Dies stellt einen großen Fortschritt in der Modellehrlichkeit dar.
„Sichere Abschlüsse“: Ein neues Paradigma für KI-Sicherheit
GPT-5 führt eine neue Sicherheitstrainingsmethode namens „Safe Completions“ ein. Dieser Ansatz geht über das traditionelle „verweigerungsbasierte“ System hinaus, das oft mit Dual-Use-Themen (z. B. Virologie) zu kämpfen hat, bei denen Informationen sowohl für gutartige als auch für böswillige Zwecke verwendet werden können.
Das Paradigma der „sicheren Vervollständigungen“ lehrt das Modell, die hilfreichste Antwort zu geben und dabei die festgelegten Sicherheitsgrenzen einzuhalten. Dies kann bedeuten, die Frage eines Benutzers nur teilweise oder nur auf hohem Niveau zu beantworten. Muss eine Anfrage abgelehnt werden, wird das Modell darauf trainiert, dies zu erklären und sichere Alternativen anzubieten. Die Daten des Unternehmens deuten darauf hin, dass dieser differenzierte Ansatz sowohl zu mehr Sicherheit als auch zu größerer Hilfsbereitschaft bei allen Arten von Eingabeaufforderungen führt und so den klassischen Kompromiss adressiert, bei dem strengere Sicherheitskontrollen oft den Nutzen eines Modells verringern.
Verfeinerung der KI-Persönlichkeit: Weniger Speichelleckerei, mehr Anpassung
In einem Moment der Transparenz räumt die Ankündigung ein, dass ein vorheriges Update von GPT-4o das Modell „unabsichtlich übermäßig unterwürfig“ bzw. übermäßig entgegenkommend gemacht habe. Das Unternehmen berichtet, seitdem neue Evaluierungs- und Trainingsmethoden entwickelt zu haben, um dies zu beheben. Infolgedessen hat GPT-5 die unterwürfigen Antworten in gezielten Tests von 14.5 % auf weniger als 6 % reduziert. Das erklärte Ziel ist es, Gespräche „weniger wie ein ‚Gespräch mit KI‘ und mehr wie ein Chat mit einem hilfsbereiten Freund mit promovierter Intelligenz“ erscheinen zu lassen.
Aufbauend auf der verbesserten Steuerbarkeit des Modells führt das Unternehmen außerdem eine Forschungsvorschau mit vier voreingestellten Persönlichkeiten ein: Zyniker, Roboter, Zuhörer und Nerd. Diese Opt-in-Einstellungen ermöglichen es Benutzern, den Kommunikationsstil der KI anzupassen, ohne komplexe benutzerdefinierte Anweisungen schreiben zu müssen.
GPT-5 Pro: Eine neue Premium-Stufe für logisches Denken auf Expertenniveau
Für seine anspruchsvollsten Nutzer bringt das Unternehmen GPT-5 Pro auf den Markt, eine Premium-Variante, die das bisherige o3pro-Modell ersetzt. Es ist für die „anspruchsvollsten und komplexesten Aufgaben“ konzipiert und funktioniert, indem das Modell „immer länger denkt und skalierte, aber effiziente parallele Testzeitberechnungen verwendet“, um möglichst umfassende und genaue Antworten zu generieren.
Die Beweise für seine Überlegenheit sind zweifach. Erstens erreicht es die höchsten Werte innerhalb der GPT-5-Familie bei difficult Benchmarks wie GPQA. Zweitens bevorzugten externe menschliche Experten in einer groß angelegten Evaluierung mit über 1,000 „wirtschaftlich wertvollen, realen Denkanstößen“ in 5 % der Fälle die Antworten von GPT-5 Pro gegenüber denen des Standard-Denkmodells „GPT-67.8“. Der Bericht stellt außerdem fest, dass GPT-5 Pro „22 % weniger schwerwiegende Fehler“ machte und insbesondere in komplexen Bereichen wie Gesundheit, Naturwissenschaften, Mathematik und Programmierung hervorragende Leistungen erbrachte.
Diese Positionierung von GPT-5 Pro offenbart eine ausgeklügelte Marktsegmentierungsstrategie. Das zentrale Wertversprechen ist nicht nur überlegene Intelligenz, sondern auch höchste Zuverlässigkeit. Für Berufstätige wie Anwälte, Ärzte oder Ingenieure, bei denen ein einziger schwerwiegender Fehler katastrophale Folgen haben kann, ist eine 22-prozentige Reduzierung solcher Fehler ein äußerst überzeugender Vorteil, der die Kosten eines Premium-Abonnements problemlos rechtfertigt. Das Unternehmen scheint über den Verkauf reiner KI-Funktionen hinauszugehen und monetarisiert nun Sicherheit und Risikominderung – Werte, die in anspruchsvollen Unternehmens- und professionellen Märkten weitaus wertvoller sind.
Verfügbarkeit und Zugriff: Wie und wann GPT-5 verwendet wird
Die Einführung von GPT-5 soll ab sofort für alle Plus-, Pro-, Team- und Free-Nutzer beginnen. Der Zugang für Enterprise- und Education-Kunden wird voraussichtlich in einer Woche folgen.
Das Zugriffsmodell ist je nach Abonnementstufe gestaffelt:
- Freie Benutzer: Sie erhalten Zugriff auf GPT-5. Die vollständigen Reasoning-Funktionen werden in wenigen Tagen verfügbar sein. Sobald die Nutzungsgrenzen erreicht sind, werden sie auf GPT-5 mini umgestellt, ein kleineres, aber dennoch leistungsstarkes Modell.
- Plus-Benutzer: Kann GPT-5 als Standardmodell mit „deutlich höherer Nutzung als kostenlose Benutzer“ verwenden.
- Pro-Abonnenten: Erhalten Sie unbegrenzten Zugriff auf das Standardmodell GPT-5 und exklusiven Zugriff auf das Spitzenmodell GPT-5 Pro.
Team-, Enterprise- und Edu-Kunden: Es werden „großzügige Limits“ gewährt, die eine unternehmensweite Einführung unterstützen sollen.
Zusammenfassend lässt sich sagen, dass die Einführung von GPT-5 eine vielschichtige Weiterentwicklung des KI-Angebots des Unternehmens darstellt. Die Ankündigung konzentriert sich ebenso auf das ganzheitliche Benutzererlebnis, die Produktstrategie und das Engagement für Sicherheit wie auf die zugrunde liegende technologische Leistungsfähigkeit. Durch die Vereinheitlichung der Modellpalette, umfangreiche Investitionen in einen „Trust Stack“ und die Schaffung einer Premium-Stufe basierend auf Zuverlässigkeit signalisiert das Unternehmen einen strategischen Vorstoß hin zu einem ausgereifteren, kollaborativeren und kommerziell robusteren KI-Ökosystem.