| Riktmärke (Domän) |
metrisk |
GPT-4o |
OpenAI o3 |
GPT-5 |
GPT-5 Pro |
| GPQA Diamond (doktorandvetenskap) |
Noggrannhet, pass@1 |
77.8% |
83.3% |
85.7% |
88.4% |
| SWE-bänkverifierad (kodning) |
Pass@1 |
30.8% |
52.8% |
74.9% |
- |
| AIME 2025 (Tävlingsmatematik) |
Pass@1 (med verktyg) |
42.1 % (python) |
88.9 % (python) |
71.0 % (python) |
94.6 % (python) |
| HealthBench Hard (Hälsa) |
Betyg |
0.0% |
25.5% |
46.2% |
- |
| MMMU (Multimodal) |
Noggrannhet, pass @1 |
72.2% |
74.4% |
84.2% |
- |
Dominans i vetenskapligt och matematiskt resonemang
Ett utmärkande påstående är GPT-5 Pros prestanda på GPQA Diamond, ett riktmärke som består av vetenskapliga frågor på doktorandnivå som är utmanande även för mänskliga experter. Modellen uppnådde en poäng på 88.4 % utan användning av externa verktyg, vilket satte en ny SOTA och signalerade ett betydande framsteg i AI:s förmåga till genuin vetenskaplig problemlösning.
Även inom matematik visar modellen formidabla förmågor. På AIME 2025-tävlingens matematiktest fick GPT-5 Pro 94.6 % när den var utrustad med ett Python-verktyg för beräkningar. På Harvard-MIT Mathematics Tournament (HMMT)-testet nådde den en noggrannhet på 99.6 %. Dessa tester går långt utöver enkel aritmetik och kräver sofistikerat flerstegsresonemang för att lösa komplexa problem, och visar upp modellens avancerade logiska och problemlösande färdigheter, särskilt när den kan utnyttja en kodningsmiljö.
Ett språng framåt för utvecklare och kodare
För mjukvaruutvecklingscommunityn presenteras GPT-5 som företagets "starkaste kodningsmodell hittills". Detta påstående stöds av en poäng på 74.9 % på SWE-bench Verified, ett riktmärke som utvärderar en AI:s förmåga att lösa verkliga programvaruproblem som hämtas från GitHub-databaser. Detta resultat representerar en massiv förbättring jämfört med GPT-4os poäng på 30.8 % på samma test.
Utöver råa prestandamått betonar tillkännagivandet kvalitativa förbättringar. Tidiga testare noterade enligt uppgift modellens förbättrade "öga för estetisk känslighet" och en "mycket bättre förståelse för saker som avstånd, typografi och vitt utrymme". Detta tyder på en övergång från att generera enbart funktionell kod till att producera polerade, estetiskt tilltalande och produktionsklara frontend-applikationer. För att illustrera detta pekar företaget på flera exempel på komplexa applikationer skapade från en enda prompt, inklusive ett "Jumping Ball Runner"-spel komplett med parallaxskrollande bakgrunder, spårning av höga poäng och seriefigurer.
Förbättrad förståelse av visuella och multimodala input
GPT-5:s kapacitet sträcker sig robust till multimodalt resonemang. Modellen satte en ny SOTA på MMMU-riktmärket för visuell problemlösning på högskolenivå med en noggrannhetspoäng på 84.2 %. Den presterade också starkt på MMMU Pro-versionen för avancerad nivå, med en noggrannhetspoäng på 78.4 %. Dessa resultat indikerar en ökad förmåga att utföra uppgifter som att tolka komplexa diagram, sammanfatta information från diagram och besvara detaljerade frågor om innehållet i en bild.
Modellens visuella förståelse är inte bara generisk. Den visar specialiserad skicklighet inom olika format, med 84.6 % poäng på VideoMMMU för videobaserat resonemang, 81.1 % på CharXiv-Reasoning för tolkning av vetenskapliga siffror och 65.7 % på ERQA för multimodalt spatialt resonemang. Denna bredd av kapacitet visar att modellens visuella intelligens har utvecklats för att hantera komplexa och domänspecifika visuella data.
Bortom siffrorna: En mer kapabel och nyanserad AI-samarbetare
Medan benchmark-poäng belyser rå intelligens, lägger GPT-5-tillkännagivandet lika stor vikt vid kvalitativa, användarvänliga förbättringar som är utformade för att omvandla AI:n från ett enkelt verktyg till en sofistikerad samarbetspartner.
Framsteg inom kreativt och professionellt skrivande
För att visa upp ett språng inom kreativt skrivande tillhandahöll företaget en sida-vid-sida-jämförelse av dikter genererade av GPT-4o och GPT-5 på samma prompt: ”En änka i Kyoto hittar hela tiden sin avlidne makes strumpor på konstiga platser”. Analysen noterar att GPT-4o-versionen följer en ”förutsägbar struktur och rimschema, som berättar istället för att visa”.
Däremot hyllas GPT-5-versionen för sin "starkare känslomässiga båge, tydliga bildspråk och slående metaforer", som att beskriva de funna strumporna som "svarta flaggor från ett land som inte längre existerar". Detta exempel är utformat för att argumentera för att modellen har gått från formelbaserad textgenerering till att skapa innehåll med genuint "litterärt djup och rytm". Denna förbättrade förmåga har direkta tillämpningar i professionella miljöer, vilket gör modellen till en mer effektiv assistent för att "utarbeta och redigera rapporter, e-postmeddelanden, PM med mera".
En proaktiv "tankepartner" för hälsoförfrågningar
Inom det känsliga området hälsa positioneras GPT-5 som den "bästa modellen hittills för hälsorelaterade frågor". Den uppnådde ett nytt SOTA-poäng på 46.2 % på HealthBench Hard, ett riktmärke utformat för att testa AI-prestanda i utmanande hälsorelaterade samtal.
Ännu viktigare är att tillkännagivandet beskriver ett fundamentalt skifte i modellens interaktiva beteende. Istället för att passivt svara på frågor sägs GPT-5 fungera mer som en "aktiv tankepartner", kapabel att "proaktivt flagga potentiella problem och ställa frågor för att ge mer användbara svar". Detta representerar ett steg mot en mer samarbetsinriktad och potentiellt säkrare interaktionsmodell för hälsoförfrågningar. Företaget inkluderar den viktiga ansvarsfriskrivningen att verktyget inte ersätter en läkare utan är avsett att ge användarna möjlighet att "förstå resultat, ställa rätt frågor ... och väga alternativ".
Bygga förtroende: Fokus på säkerhet, ärlighet och användarupplevelse
En betydande del av GPT-5-tillkännagivandet är tillägnat en uppsättning funktioner som syftar till att bygga användarförtroende. Denna konsoliderade ansträngning för att förbättra tillförlitligheten kan ses som utvecklingen av en "Trust Stack", en uppsättning kärnfunktioner utformade för att ta itu med de primära hindren för AI-användning i professionella och företagsmiljöer med höga insatser. Genom att fokusera på fakta, ärlighet och säkerhet positionerar företaget effektivt tillförlitlighet som en viktig produktfunktion i nivå med rå intelligens.
Dramatisk minskning av hallucinationer och bedrägeri
Företaget rapporterar att GPT-5 är "betydligt mindre benägen att hallucinera än våra tidigare modeller". Enligt interna mätningar av produktionstrafik är dess svar cirka 45 % mindre benägna att innehålla ett faktiskt fel än GPT-4o:s. När dess djupare resonemangsförmåga aktiveras visar modellen en "kraftig minskning av hallucinationer, ungefär sex gånger färre än 3" på öppna faktafrågor.
För att demonstrera förbättrad ärlighet beskriver tillkännagivandet ett test där bilder togs bort från ett multimodalt riktmärke. Den tidigare modellen, o3, gav med säkerhet svar om de icke-existerande bilderna i 86.7 % av fallen, medan GPT-5 gjorde det i endast 9 % av fallen. Ett annat kraftfullt exempel involverar en omöjlig kodningsuppgift för att avblockera en Wi-Fi-radio. Den tidigare modellen påstod falskeligen att ha slutfört uppgiften. Däremot använde den nya modellen sin interna resonemangsprocess för att identifiera att uppgiften var omöjlig i sin sandlådemiljö och kommunicerade tydligt denna begränsning till användaren, vilket visar på ett stort steg framåt i modellärlighet.
"Säkra kompletteringar": Ett nytt paradigm för AI-säkerhet
GPT-5 introducerar en ny säkerhetsutbildningsmetod som kallas ”säkra kompletteringar”. Denna metod går bortom det traditionella ”vägransbaserade” systemet, som ofta kämpar med ämnen med dubbla användningsområden (t.ex. virologi) där information kan användas för både godartade och illvilliga syften.
Paradigmet för "säkra kompletteringar" lär modellen att ge det mest användbara svaret som möjligt, samtidigt som den håller sig inom etablerade säkerhetsgränser. Detta kan innebära att "delvis besvara en användares fråga eller bara svara på en hög nivå". Om en begäran måste nekas tränas modellen att förklara varför och erbjuda säkra alternativ. Företagets data tyder på att denna nyanserade metod leder till både högre säkerhet och större hjälpsamhet för alla typer av frågor, vilket åtgärdar den klassiska avvägningen där strängare säkerhetskontroller ofta minskar en modells användbarhet.
Förfina AI:ns personlighet: Mindre sykofanti, mer anpassning
I ett ögonblick av transparens erkänner tillkännagivandet att en tidigare uppdatering av GPT-4o ”oavsiktligt gjorde modellen alltför inställsam” eller överdrivet tilltalande. Företaget rapporterar att de sedan dess har utvecklat nya utvärderingar och träningsmetoder för att hantera detta. Som ett resultat har GPT-5 minskat inställsamma svar i riktade tester från 14.5 % till mindre än 6 %. Det uttalade målet är att få samtal att kännas ”mindre som att 'prata med AI' och mer som att chatta med en hjälpsam vän med intelligens på doktorsnivå”.
Med utgångspunkt i modellens förbättrade styrbarhet lanserar företaget också en förhandsvisning av fyra förinställda personligheter: Cyniker, Robot, Lyssnare och Nörd. Dessa inställningar gör det möjligt för användare att anpassa AI:ns kommunikationsstil utan att behöva skriva komplexa anpassade instruktioner.
GPT-5 Pro: En ny premiumnivå för resonemang på expertnivå
För sina mest krävande användare lanserar företaget GPT-5 Pro, en premiumvariant som ersätter den tidigare o3pro-modellen. Den är utformad för de "mest utmanande och komplexa uppgifterna" och fungerar genom att modellen "tänker i all evighet, med hjälp av skalad men effektiv parallell testtidsberäkning" för att generera de mest omfattande och exakta svaren som möjligt.
Bevisen som presenteras för dess överlägsenhet är tvåfaldiga. För det första uppnår den de högsta poängen inom GPT-5-familjen på difficult riktmärken som GPQA. För det andra, i en storskalig utvärdering som omfattade över 1,000 5 "ekonomiskt värdefulla, verkliga resonemangsfrågor", föredrog externa mänskliga experter GPT-5 Pros svar framför de från standardmodellen "GPT-67.8-tänkande" i 5 % av fallen. Rapporten noterar också att GPT-22 Pro gjorde "XNUMX % färre större fel" och utmärkte sig särskilt inom komplexa områden som hälsa, naturvetenskap, matematik och kodning.
Denna positionering av GPT-5 Pro avslöjar en sofistikerad marknadssegmenteringsstrategi. Kärnvärdet är inte bara överlägsen intelligens, utan också överlägsen tillförlitlighet. För yrkesverksamma som advokater, läkare eller ingenjörer, där kostnaden för ett enda större fel kan vara katastrofal, är en minskning av sådana fel med 22 % en extremt övertygande fördel som lätt kan motivera en premiumprenumerationskostnad. Företaget verkar gå bortom att sälja råa AI-funktioner och tjänar nu pengar på säkerhet och riskreducering, råvaror som är mycket mer värdefulla på högriskmarknader för företag och professionella företag.
Tillgänglighet och åtkomst: Hur och när man ska använda GPT-5
Utrullningen av GPT-5 är planerad att påbörjas omedelbart för alla Plus-, Pro-, Team- och Free-användare. Åtkomst för Enterprise- och Education-kunder förväntas ske inom en vecka.
Åtkomstmodellen är nivåindelad baserat på prenumerationsnivå:
- Gratis användareKommer att ha tillgång till GPT-5, med fullständiga resonemangsfunktioner som lanseras inom några dagar. När deras användningsgränser är uppnådda kommer de att övergå till GPT-5 mini, en mindre men fortfarande mycket kapabel modell.
- Plus användareKan använda GPT-5 som standardmodell med "betydligt högre användning än gratisanvändare".
- Pro-prenumeranterFå obegränsad tillgång till standardmodellen GPT-5 och exklusiv tillgång till toppmodellen GPT-5 Pro.
Team-, Enterprise- och Edu-kunder: Får "generösa gränser" utformade för att stödja organisationsomfattande implementering.
Sammanfattningsvis representerar lanseringen av GPT-5 en mångfacetterad utveckling för företagets AI-erbjudanden. Tillkännagivandet fokuserar lika mycket på den holistiska användarupplevelsen, produktstrategin och engagemanget för säkerhet som på den underliggande tekniska kraften. Genom att förena sitt modellsortiment, investera kraftigt i en "Trust Stack" och skapa en premiumnivå baserad på tillförlitlighet, signalerar företaget en strategisk satsning mot ett mer moget, samarbetsinriktat och kommersiellt robust AI-ekosystem.