| Benchmark (Domein) |
metrisch |
GPT-4o |
Open AI o3 |
GPT-5 |
GPT-5 Pro |
| GPQA Diamond (PhD Wetenschap) |
Nauwkeurigheid, pass@1 |
77.8% |
83.3% |
85.7% |
88.4% |
| SWE-bench geverifieerd (codering) |
Pas@1 |
30.8% |
52.8% |
74.9% |
NB |
| AIME 2025 (Wedstrijdwiskunde) |
Pass@1 (met gereedschap) |
42.1% (python) |
88.9% (python) |
71.0% (python) |
94.6% (python) |
| HealthBench Hard (Gezondheid) |
Score |
0.0% |
25.5% |
46.2% |
NB |
| MMMU (Multimodaal) |
Nauwkeurigheid, geslaagd @1 |
72.2% |
74.4% |
84.2% |
NB |
Dominantie in wetenschappelijk en wiskundig redeneren
Een opvallende claim is de prestatie van GPT-5 Pro op GPQA Diamond, een benchmark die bestaat uit wetenschappelijke vragen op PhD-niveau die zelfs voor menselijke experts een uitdaging vormen. Het model behaalde een score van 88.4% zonder gebruik van externe tools, wat een nieuwe SOTA-score opleverde en een aanzienlijke vooruitgang in het vermogen van de AI tot daadwerkelijk wetenschappelijk probleemoplossend vermogen aangaf.
Ook op wiskundig gebied toont het model formidabele mogelijkheden. In de AIME 2025-benchmark voor wiskunde scoorde de GPT-5 Pro 94.6%, uitgerust met een Python-tool voor berekeningen. In de benchmark van het Harvard-MIT Mathematics Tournament (HMMT) behaalde het een nauwkeurigheid van 99.6%. Deze tests gaan veel verder dan simpele rekenkunde en vereisen geavanceerde, meerstaps redeneringen om complexe problemen op te lossen. Dit toont de geavanceerde logische en probleemoplossende vaardigheden van het model, vooral wanneer het gebruikmaakt van een programmeeromgeving.
Een sprong voorwaarts voor ontwikkelaars en programmeurs
Voor de softwareontwikkelaarsgemeenschap wordt GPT-5 gepresenteerd als het "sterkste codeermodel tot nu toe". Deze bewering wordt ondersteund door een score van 74.9% op SWE-bench Verified, een benchmark die het vermogen van een AI evalueert om echte software engineering-problemen op te lossen die afkomstig zijn uit GitHub-repositories. Dit resultaat is een enorme verbetering ten opzichte van de 4% score van GPT-30.8o op dezelfde test.
Naast de ruwe prestatiegegevens benadrukt de aankondiging kwalitatieve verbeteringen. Vroege testers merkten naar verluidt het verbeterde "oog voor esthetische gevoeligheid" en een "veel beter begrip van zaken als spaties, typografie en witruimte" van het model op. Dit suggereert een overgang van het genereren van louter functionele code naar het produceren van gepolijste, esthetisch aantrekkelijke en productieklare frontend-applicaties. Om dit te illustreren, noemt het bedrijf verschillende voorbeelden van complexe applicaties die met รฉรฉn prompt zijn gemaakt, waaronder een "Jumping Ball Runner"-game, compleet met parallax-scrollende achtergronden, highscoretracking en cartoonachtige personages.
Verbeterd begrip van visuele en multimodale input
De mogelijkheden van GPT-5 strekken zich robuust uit tot multimodaal redeneren. Het model zette een nieuwe SOTA neer op de MMMU-benchmark voor visuele probleemoplossing op universitair niveau met een nauwkeurigheid van 84.2%. Het presteerde ook sterk op de masterversie, MMMU Pro, met een score van 78.4%. Deze resultaten duiden op een verbeterd vermogen om taken uit te voeren zoals het interpreteren van complexe grafieken, het samenvatten van informatie uit diagrammen en het beantwoorden van gedetailleerde vragen over de inhoud van een afbeelding.
Het visuele begrip van het model is niet louter generiek. Het toont gespecialiseerde vaardigheid in verschillende formaten, met een score van 84.6% op VideoMMMU voor video-gebaseerd redeneren, 81.1% op CharXiv-Reasoning voor het interpreteren van wetenschappelijke cijfers en 65.7% op ERQA voor multimodaal ruimtelijk redeneren. Deze breedte aan mogelijkheden toont aan dat de visuele intelligentie van het model is ontwikkeld om complexe en domeinspecifieke visuele data te verwerken.
Verder dan de cijfers: een capabelere en genuanceerdere AI-samenwerker
Hoewel benchmarkscores de nadruk leggen op pure intelligentie, legt de GPT-5-aankondiging evenveel nadruk op kwalitatieve, gebruikersgerichte verbeteringen die zijn ontworpen om de AI te transformeren van een eenvoudig hulpmiddel tot een geavanceerde samenwerker.
Vooruitgang in creatief en professioneel schrijven
Om een sprong voorwaarts in creatief schrijven te laten zien, maakte het bedrijf een vergelijking van gedichten die door GPT-4o en GPT-5 waren geschreven over dezelfde vraag: "Een weduwe in Kyoto vindt steeds de sokken van haar overleden echtgenoot op vreemde plekken." De analyse merkt op dat de GPT-4o-versie een "voorspelbare structuur en rijmschema volgt, dat vertelt in plaats van laat zien".
De GPT-5-versie daarentegen wordt geprezen om zijn "sterkere emotionele boog, heldere beeldspraak en treffende metaforen", zoals de beschrijving van de gevonden sokken als "zwarte vlaggen van een land dat niet meer bestaat". Dit voorbeeld is samengesteld om te bewijzen dat het model is geรซvolueerd van formulematige tekstgeneratie naar het creรซren van content met echte "literaire diepgang en ritme". Deze verbeterde mogelijkheden zijn direct toepasbaar in professionele omgevingen, waardoor het model een effectievere assistent is voor "het opstellen en redigeren van rapporten, e-mails, memo's en meer".
Een proactieve 'denkpartner' voor gezondheidsvragen
In het gevoelige domein van de gezondheidszorg wordt GPT-5 gepositioneerd als het "beste model tot nu toe voor gezondheidsgerelateerde vragen". Het behaalde een nieuwe SOTA-score van 46.2% op HealthBench Hard, een benchmark die is ontworpen om de prestaties van AI te testen in uitdagende gezondheidsgerelateerde gesprekken.
Belangrijker nog, de aankondiging beschrijft een fundamentele verschuiving in het interactieve gedrag van het model. In plaats van passief vragen te beantwoorden, zou GPT-5 meer fungeren als een "actieve denkpartner", die in staat is om "proactief potentiรซle zorgen te signaleren en vragen te stellen om nuttigere antwoorden te geven". Dit vertegenwoordigt een stap in de richting van een meer samenwerkend en potentieel veiliger interactiemodel voor gezondheidsvragen. Het bedrijf voegt de cruciale disclaimer toe dat de tool geen vervanging is voor een medische professional, maar bedoeld is om gebruikers in staat te stellen "resultaten te begrijpen, de juiste vragen te stellen... en opties af te wegen".
Vertrouwen opbouwen: focus op veiligheid, eerlijkheid en gebruikerservaring
Een aanzienlijk deel van de GPT-5-aankondiging is gewijd aan een reeks functies die gericht zijn op het opbouwen van gebruikersvertrouwen. Deze gezamenlijke inspanning om de betrouwbaarheid te verbeteren, kan worden gezien als de ontwikkeling van een "Trust Stack", een set kernfuncties die is ontworpen om de belangrijkste belemmeringen voor AI-implementatie in veeleisende professionele en zakelijke omgevingen weg te nemen. Door te focussen op feitelijkheid, eerlijkheid en veiligheid, positioneert het bedrijf betrouwbaarheid effectief als een belangrijke producteigenschap, op gelijke voet met ruwe intelligentie.
Dramatische vermindering van hallucinaties en bedrog
Het bedrijf meldt dat GPT-5 "aanzienlijk minder hallucinaties vertoont dan onze vorige modellen". Volgens interne metingen van productieverkeer is de kans op feitelijke fouten bij de reacties ongeveer 45% kleiner dan bij GPT-4o. Wanneer het diepere redeneringsvermogen wordt aangesproken, laat het model een "scherpe daling van hallucinaties zien, ongeveer zes keer minder dan bij o3" bij open, feitelijke vragen.
Om de verbeterde eerlijkheid te demonstreren, beschrijft de aankondiging een test waarbij afbeeldingen uit een multimodale benchmark werden verwijderd. Het vorige model, o3, gaf in 86.7% van de gevallen vol vertrouwen antwoorden over de niet-bestaande afbeeldingen, terwijl GPT-5 dit slechts in 9% van de gevallen deed. Een ander krachtig voorbeeld betreft een onmogelijke codeertaak om een wifi-radio te deblokkeren. Het vorige model beweerde ten onrechte de taak te hebben voltooid. Het nieuwe model daarentegen gebruikte zijn interne redeneringsproces om te identificeren dat de taak onmogelijk was binnen de sandboxomgeving en communiceerde deze beperking duidelijk aan de gebruiker, wat een grote stap voorwaarts in modeleerlijkheid aantoonde.
โVeilige voltooiingenโ: een nieuw paradigma voor AI-veiligheid
GPT-5 introduceert een nieuwe veiligheidstrainingsmethodologie genaamd 'veilige aanvullingen'. Deze aanpak gaat verder dan het traditionele 'weigeringsgebaseerde' systeem, dat vaak moeite heeft met onderwerpen met een dubbel doel (bijvoorbeeld virologie), waarbij informatie zowel voor goedaardige als kwaadaardige doeleinden kan worden gebruikt.
Het paradigma van 'veilige aanvullingen' leert het model om het meest nuttige antwoord te geven binnen de vastgestelde veiligheidsgrenzen. Dit kan inhouden dat de vraag van een gebruiker gedeeltelijk wordt beantwoord of dat alleen op een hoog niveau wordt geantwoord. Als een verzoek moet worden afgewezen, wordt het model getraind om uit te leggen waarom en veilige alternatieven te bieden. De data van het bedrijf suggereren dat deze genuanceerde aanpak leidt tot zowel meer veiligheid als meer behulpzaamheid bij alle soorten vragen, waardoor de klassieke afweging wordt aangepakt waarbij strengere veiligheidscontroles vaak de bruikbaarheid van een model verminderen.
Het verfijnen van de persoonlijkheid van de AI: minder vleierij, meer maatwerk
In een moment van transparantie erkent de aankondiging dat een eerdere update van GPT-4o het model "onbedoeld te kruiperig" of overdreven vriendelijk heeft gemaakt. Het bedrijf meldt dat het sindsdien nieuwe evaluaties en trainingsmethoden heeft ontwikkeld om dit aan te pakken. Als gevolg hiervan heeft GPT-5 het aantal kruiperige reacties in gerichte tests teruggebracht van 14.5% naar minder dan 6%. Het beoogde doel is om gesprekken "minder te laten voelen als 'praten met AI' en meer als kletsen met een behulpzame vriend met een intelligentie op PhD-niveau".
Voortbouwend op de verbeterde stuurbaarheid van het model lanceert het bedrijf ook een onderzoekspreview van vier vooraf ingestelde persoonlijkheden: Cynicus, Robot, Luisteraar en Nerd. Met deze opt-in-instellingen kunnen gebruikers de communicatiestijl van de AI aanpassen zonder complexe, op maat gemaakte instructies te hoeven schrijven.
GPT-5 Pro: een nieuwe premiumlaag voor redeneren op expertniveau
Voor de meest veeleisende gebruikers lanceert het bedrijf de GPT-5 Pro, een premiumvariant die het vorige o3pro-model vervangt. Deze is ontworpen voor de "meest uitdagende, complexe taken" en werkt door het model "steeds langer te laten nadenken, met behulp van geschaalde maar efficiรซnte parallelle test-time computing" om de meest uitgebreide en nauwkeurige antwoorden te genereren.
Het bewijs voor zijn superioriteit is tweeledig. Ten eerste behaalt het de hoogste scores binnen de GPT-5-familie op difficult benchmarks zoals GPQA. Ten tweede gaven externe menselijke experts in een grootschalige evaluatie met meer dan 1,000 "economisch waardevolle, realistische redeneervragen" in 5% van de gevallen de voorkeur aan de antwoorden van GPT-5 Pro boven die van het standaard "GPT-67.8 denkmodel". Het rapport merkt ook op dat GPT-5 Pro "22% minder grote fouten" maakte en met name uitblonk in complexe domeinen zoals gezondheid, wetenschap, wiskunde en programmeren.
Deze positionering van GPT-5 Pro onthult een geavanceerde marktsegmentatiestrategie. De kernwaardepropositie is niet alleen superieure intelligentie, maar ook superieure betrouwbaarheid. Voor professionals zoals advocaten, artsen of ingenieurs, waar de kosten van รฉรฉn grote fout catastrofaal kunnen zijn, is een reductie van dergelijke fouten met 22% een zeer aantrekkelijk voordeel dat de hoge abonnementskosten gemakkelijk kan rechtvaardigen. Het bedrijf lijkt verder te gaan dan de verkoop van pure AI-mogelijkheden en maakt nu winst met zekerheid en risicoreductie, basisproducten die veel waardevoller zijn in zakelijke en professionele markten met hoge inzetten.
Beschikbaarheid en toegang: hoe en wanneer GPT-5 te gebruiken
De uitrol van GPT-5 start naar verwachting direct voor alle Plus-, Pro-, Team- en Free-gebruikers. Toegang voor Enterprise- en Education-klanten volgt naar verwachting binnen een week.
Het toegangsmodel is gelaagd op basis van het abonnementsniveau:
- Gratis gebruikers: Krijgen toegang tot GPT-5, met volledige redeneermogelijkheden die over een paar dagen worden uitgerold. Zodra hun gebruikslimieten zijn bereikt, worden ze overgezet naar GPT-5 mini, een kleiner maar nog steeds zeer krachtig model.
- Plus-gebruikers: Kan GPT-5 gebruiken als standaardmodel met โaanzienlijk hoger gebruik dan gratis gebruikersโ.
- Pro-abonnees: Ontvang onbeperkte toegang tot het standaard GPT-5 model en exclusieve toegang tot het topmodel GPT-5 Pro.
Team-, Enterprise- en Edu-klanten: krijgen 'ruime limieten' die zijn ontworpen om organisatiebrede acceptatie te ondersteunen.
Concluderend vertegenwoordigt de lancering van GPT-5 een veelzijdige evolutie voor het AI-aanbod van het bedrijf. De aankondiging richt zich evenzeer op de holistische gebruikerservaring, productstrategie en toewijding aan veiligheid als op de onderliggende technologische kracht. Door het modelaanbod te verenigen, fors te investeren in een "Trust Stack" en een premiumniveau te creรซren op basis van betrouwbaarheid, signaleert het bedrijf een strategische impuls richting een volwassener, meer samenwerkend en commercieel robuust AI-ecosysteem.