| Benchmark (Domæne) |
metric |
GPT-4o |
ÅbenAI o3 |
GPT-5 |
GPT-5 Pro |
| GPQA Diamond (Ph.d.-videnskab) |
Præcision, bestået ved 1 |
77.8% |
83.3% |
85.7% |
88.4% |
| SWE-bench verificeret (kodning) |
Bestå@1 |
30.8% |
52.8% |
74.9% |
N / A |
| AIME 2025 (Konkurrencematematik) |
Pass@1 (med værktøj) |
42.1% (python) |
88.9% (python) |
71.0% (python) |
94.6% (python) |
| HealthBench Hard (Sundhed) |
Score |
0.0% |
25.5% |
46.2% |
N / A |
| MMMU (Multimodal) |
Præcision, bestået @1 |
72.2% |
74.4% |
84.2% |
N / A |
Dominans i videnskabelig og matematisk ræsonnement
En bemærkelsesværdig påstand er GPT-5 Pros præstation på GPQA Diamond, en benchmark bestående af videnskabelige spørgsmål på ph.d.-niveau, der er udfordrende selv for menneskelige eksperter. Modellen opnåede en score på 88.4% uden brug af eksterne værktøjer, hvilket satte en ny SOTA og signalerede et betydeligt fremskridt i AI'ens evne til ægte videnskabelig problemløsning.
I matematik demonstrerer modellen også formidable evner. På AIME 2025-konkurrencens matematikbenchmark scorede GPT-5 Pro 94.6%, når den var udstyret med et Python-værktøj til beregninger. På Harvard-MIT Mathematics Tournament (HMMT)-benchmarken opnåede den en nøjagtighed på 99.6%. Disse tests går langt ud over simpel aritmetik og kræver sofistikeret, flertrins ræsonnement for at løse komplekse problemer, hvilket fremviser modellens avancerede logiske og problemløsende færdigheder, især når den kan udnytte et kodningsmiljø.
Et spring fremad for udviklere og kodere
For softwareudviklingsmiljøet præsenteres GPT-5 som virksomhedens "stærkeste kodningsmodel til dato". Denne påstand understøttes af en score på 74.9% på SWE-bench Verified, en benchmark, der evaluerer en AI's evne til at løse softwareudviklingsproblemer i den virkelige verden, der er hentet fra GitHub-arkiver. Dette resultat repræsenterer en massiv forbedring i forhold til GPT-4os score på 30.8% på den samme test.
Ud over rå performancemålinger lægger annonceringen vægt på kvalitative forbedringer. Tidlige testere bemærkede angiveligt modellens forbedrede "øje for æstetisk følsomhed" og en "meget bedre forståelse af ting som afstand, typografi og hvidt rum". Dette antyder en overgang fra blot at generere funktionel kode til at producere polerede, æstetisk tiltalende og produktionsklare frontend-applikationer. For at illustrere dette peger virksomheden på flere eksempler på komplekse applikationer skabt ud fra en enkelt prompt, herunder et "Jumping Ball Runner"-spil komplet med parallax-scrollende baggrunde, highscore-sporing og tegneserieagtige figurer.
Øget forståelse af visuelle og multimodale input
GPT-5's muligheder strækker sig robust ind i multimodal ræsonnement. Modellen satte en ny SOTA på MMMU-benchmarken for visuel problemløsning på universitetsniveau med en nøjagtighedsscore på 84.2%. Den klarede sig også stærkt på kandidatniveauversionen, MMMU Pro, med en score på 78.4%. Disse resultater indikerer en forbedret evne til at udføre opgaver såsom at fortolke komplekse diagrammer, opsummere information fra diagrammer og besvare detaljerede spørgsmål om indholdet af et billede.
Modellens visuelle forståelse er ikke blot generisk. Den demonstrerer specialiseret færdighed på tværs af forskellige formater og scorer 84.6% på VideoMMMU for videobaseret ræsonnement, 81.1% på CharXiv-Reasoning for fortolkning af videnskabelige tal og 65.7% på ERQA for multimodal spatial ræsonnement. Denne brede kapacitet viser, at modellens visuelle intelligens er udviklet til at håndtere komplekse og domænespecifikke visuelle data.
Ud over tallene: En mere dygtig og nuanceret AI-samarbejdspartner
Mens benchmark-scorer fremhæver rå intelligens, lægger GPT-5-meddelelsen lige stor vægt på kvalitative, brugervenlige forbedringer, der er designet til at transformere AI'en fra et simpelt værktøj til en sofistikeret samarbejdspartner.
Fremskridt inden for kreativ og professionel skrivning
For at vise et spring inden for kreativ skrivning leverede virksomheden en side-om-side sammenligning af digte genereret af GPT-4o og GPT-5 på samme prompt: "En enke i Kyoto bliver ved med at finde sin afdøde mands sokker på mærkelige steder". Analysen bemærker, at GPT-4o-versionen følger en "forudsigelig struktur og rimordning, der fortæller i stedet for at vise".
I modsætning hertil roses GPT-5-versionen for sin "stærkere følelsesmæssige bue, klare billedsprog og slående metaforer", såsom at beskrive de fundne sokker som "sorte flag fra et land, der ikke længere eksisterer". Dette eksempel er kurateret for at argumentere for, at modellen har udviklet sig fra formelbaseret tekstgenerering til at skabe indhold med ægte "litterær dybde og rytme". Denne forbedrede funktion har direkte anvendelser i professionelle sammenhænge, hvilket gør modellen til en mere effektiv assistent til "udarbejdelse og redigering af rapporter, e-mails, notater og mere".
En proaktiv 'tankepartner' til sundhedsforespørgsler
Inden for det følsomme område sundhed er GPT-5 positioneret som den "bedste model til dato for sundhedsrelaterede spørgsmål". Den opnåede en ny SOTA-score på 46.2% på HealthBench Hard, en benchmark designet til at teste AI-ydeevne i udfordrende sundhedsrelaterede samtaler.
Endnu vigtigere er det, at annonceringen beskriver et fundamentalt skift i modellens interaktive adfærd. I stedet for passivt at besvare spørgsmål, siges GPT-5 at fungere mere som en "aktiv tankepartner", der er i stand til "proaktivt at markere potentielle bekymringer og stille spørgsmål for at give mere nyttige svar". Dette repræsenterer et skridt mod en mere samarbejdsorienteret og potentielt sikrere interaktionsmodel for sundhedsforespørgsler. Virksomheden inkluderer den afgørende ansvarsfraskrivelse om, at værktøjet ikke er en erstatning for en lægefaglig person, men har til formål at give brugerne mulighed for at "forstå resultater, stille de rigtige spørgsmål ... og afveje muligheder".
Opbygning af tillid: Fokus på sikkerhed, ærlighed og brugeroplevelse
En væsentlig del af GPT-5-meddelelsen er dedikeret til en række funktioner, der sigter mod at opbygge brugertillid. Denne konsoliderede indsats for at forbedre pålideligheden kan ses som udviklingen af en "Trust Stack", et sæt kernefunktioner designet til at adressere de primære barrierer for AI-adoption i professionelle og virksomhedsmiljøer med høje indsatser. Ved at fokusere på fakta, ærlighed og sikkerhed positionerer virksomheden effektivt troværdighed som en central produktegenskab på niveau med rå intelligens.
Dramatisk reduktion af hallucinationer og bedrag
Virksomheden rapporterer, at GPT-5 er "signifikant mindre tilbøjelig til at hallucinere end vores tidligere modeller". Ifølge interne målinger af produktionstrafik er dens svar cirka 45 % mindre tilbøjelige til at indeholde en faktuel fejl end GPT-4o's. Når dens dybere ræsonnementsevner aktiveres, viser modellen et "skarpt fald i hallucinationer, cirka seks gange færre end 3" på åbne faktuelle spørgsmål.
For at demonstrere forbedret ærlighed beskriver annonceringen en test, hvor billeder blev fjernet fra en multimodal benchmark. Den tidligere model, o3, gav med sikkerhed svar på de ikke-eksisterende billeder i 86.7% af tilfældene, hvorimod GPT-5 kun gjorde det i 9% af tilfældene. Et andet stærkt eksempel involverer en umulig kodningsopgave for at ophæve blokeringen af en Wi-Fi-radio. Den tidligere model hævdede fejlagtigt at have fuldført opgaven. I modsætning hertil brugte den nye model sin interne ræsonnementsproces til at identificere, at opgaven var umulig i sit sandbox-miljø, og kommunikerede tydeligt denne begrænsning til brugeren, hvilket viste et stort skridt fremad i modelærlighed.
"Sikre fuldførelser": Et nyt paradigme for AI-sikkerhed
GPT-5 introducerer en ny sikkerhedstræningsmetode kaldet "sikre gennemførelser". Denne tilgang bevæger sig ud over det traditionelle "afslagsbaserede" system, som ofte kæmper med emner med dobbelt anvendelse (f.eks. virologi), hvor information kan bruges til både godartede og ondsindede formål.
Paradigmet med "sikre fuldførelser" lærer modellen at give det mest nyttige svar, samtidig med at den forbliver inden for de etablerede sikkerhedsgrænser. Dette kan involvere "delvist at besvare en brugers spørgsmål eller kun at besvare på et højt niveau". Hvis en anmodning skal afvises, trænes modellen til at forklare hvorfor og tilbyde sikre alternativer. Virksomhedens data tyder på, at denne nuancerede tilgang fører til både højere sikkerhed og større hjælpsomhed på tværs af alle typer prompts og dermed imødekommer den klassiske afvejning, hvor strengere sikkerhedskontroller ofte reducerer en models nytteværdi.
Forfining af AI'ens personlighed: Mindre sykofanti, mere tilpasning
I et øjeblik af åbenhed anerkender meddelelsen, at en tidligere opdatering til GPT-4o "utilsigtet gjorde modellen overdrevent sykofantisk" eller overdrevent behagelig. Virksomheden rapporterer, at den siden har udviklet nye evalueringer og træningsmetoder til at håndtere dette. Som et resultat har GPT-5 reduceret sykofantiske svar i målrettede tests fra 14.5% til under 6%. Det erklærede mål er at få samtaler til at føles "mindre som at 'tale med AI' og mere som at chatte med en hjælpsom ven med intelligens på ph.d.-niveau".
Med udgangspunkt i modellens forbedrede styrbarhed lancerer virksomheden også en forskningsforhåndsvisning af fire forudindstillede personligheder: Cynic, Robot, Listener og Nerd. Disse tilvalgsindstillinger giver brugerne mulighed for at tilpasse AI'ens kommunikationsstil uden at skulle skrive komplekse, brugerdefinerede instruktioner.
GPT-5 Pro: Et nyt premium-niveau til ekspertræsonnement
Til sine mest krævende brugere lancerer virksomheden GPT-5 Pro, en premiumvariant, der erstatter den tidligere o3pro-model. Den er designet til de "mest udfordrende og komplekse opgaver" og fungerer ved, at modellen "tænker i længere tid ved hjælp af skaleret, men effektiv parallel testtidsberegning" for at generere de mest omfattende og præcise svar.
Der er to beviser for dens overlegenhed. For det første opnår den de højeste scorer inden for GPT-5-familien på forskellige områder.cult benchmarks som GPQA. For det andet foretrak eksterne menneskelige eksperter i en storstilet evaluering, der involverede over 1,000 "økonomisk værdifulde, virkelige ræsonnementsspørgsmål", GPT-5 Pros svar frem for dem fra standardmodellen "GPT-5-tænkning" i 67.8 % af tilfældene. Rapporten bemærker også, at GPT-5 Pro lavede "22 % færre større fejl" og især udmærkede sig inden for komplekse områder som sundhed, naturvidenskab, matematik og kodning.
Denne positionering af GPT-5 Pro afslører en sofistikeret markedssegmenteringsstrategi. Kerneværdiforslaget er ikke blot overlegen intelligens, men også overlegen pålidelighed. For fagfolk som advokater, læger eller ingeniører, hvor omkostningerne ved en enkelt større fejl kan være katastrofale, er en reduktion på 22 % i sådanne fejl en yderst overbevisende fordel, der nemt kan retfærdiggøre en premium-abonnementsomkostning. Virksomheden ser ud til at bevæge sig ud over at sælge rå AI-funktioner og tjener nu penge på sikkerhed og risikoreduktion, råvarer, der er langt mere værdifulde på højrisiko-virksomheds- og professionelle markeder.
Tilgængelighed og adgang: Hvordan og hvornår skal man bruge GPT-5
Udrulningen af GPT-5 er planlagt til at begynde øjeblikkeligt for alle Plus-, Pro-, Team- og Free-brugere. Adgang for Enterprise- og Education-kunder forventes at følge om en uge.
Adgangsmodellen er opdelt i niveauer baseret på abonnementsniveau:
- Gratis brugereVil have adgang til GPT-5, med fuld ræsonnementfunktionalitet, der rulles ud over et par dage. Når deres brugsgrænser er nået, vil de blive overført til GPT-5 mini, en mindre, men stadig meget kapabel model.
- Plus brugereKan bruge GPT-5 som standardmodel med "væsentligt højere forbrug end gratisbrugere".
- Pro-abonnenterFå ubegrænset adgang til standardmodellen GPT-5 og eksklusiv adgang til topmodellen GPT-5 Pro.
Team-, Enterprise- og Edu-kunder: Får "generøse grænser", der er designet til at understøtte implementering i hele organisationen.
Afslutningsvis repræsenterer lanceringen af GPT-5 en mangesidet udvikling for virksomhedens AI-tilbud. Meddelelsen fokuserer lige så meget på den holistiske brugeroplevelse, produktstrategi og engagement i sikkerhed som på den underliggende teknologiske kraft. Ved at forene sin modelserie, investere kraftigt i en "Trust Stack" og skabe et premium-niveau baseret på pålidelighed signalerer virksomheden et strategisk skub mod et mere modent, samarbejdsorienteret og kommercielt robust AI-økosystem.