| Mjerna vrijednost (domena) |
metrički |
GPT-4o |
OpenAI o3 |
GPT-5 |
GPT-5 Pro |
| GPQA Diamond (doktorat znanosti) |
Točnost, prolaz@1 |
77.8% |
83.3% |
85.7% |
88.4% |
| SWE-bench verificirano (kodiranje) |
Prolaz@1 |
30.8% |
52.8% |
74.9% |
N / A |
| AIME 2025 (Natjecanje iz matematike) |
Prolaz@1 (s alatima) |
42.1% (pajton) |
88.9% (pajton) |
71.0% (pajton) |
94.6% (pajton) |
| ZdravljeKlupa na tvrdoj podlozi (Zdravlje) |
Bodovi |
0.0% |
25.5% |
46.2% |
N / A |
| MMMU (multimodalni) |
Točnost, dodavanje @1 |
72.2% |
74.4% |
84.2% |
N / A |
Dominacija u znanstvenom i matematičkom zaključivanju
Istaknuta tvrdnja je uspješnost GPT-5 Pro na GPQA Diamondu, mjerilu sastavljenom od znanstvenih pitanja na razini doktorata koja su izazovna čak i za ljudske stručnjake. Model je postigao rezultat od 88.4% bez upotrebe vanjskih alata, postavljajući novi SOTA i signalizirajući značajan napredak u sposobnosti umjetne inteligencije za istinsko znanstveno rješavanje problema.
U matematici, model također pokazuje impresivne mogućnosti. Na AIME 2025 natjecateljskom matematičkom testu, GPT-5 Pro postigao je 94.6% kada je opremljen Python alatom za izračune. Na Harvard-MIT Mathematics Tournament (HMMT) testu postigao je točnost od 99.6%. Ovi testovi idu daleko dalje od jednostavne aritmetike, zahtijevajući sofisticirano, višestepeno zaključivanje za rješavanje složenih problema, pokazujući napredne logičke vještine i vještine rješavanja problema modela, posebno kada može iskoristiti okruženje za kodiranje.
Skok naprijed za developere i kodere
Za zajednicu razvojnih inženjera softvera, GPT-5 se predstavlja kao „najjači model kodiranja do sada“ tvrtke. Ovu tvrdnju potkrepljuje rezultat od 74.9% na SWE-bench Verified, mjerilu koje procjenjuje sposobnost umjetne inteligencije da rješava probleme softverskog inženjerstva u stvarnom svijetu, a koji potječu iz GitHub repozitorija. Ovaj rezultat predstavlja ogromno poboljšanje u odnosu na rezultat GPT-4o od 30.8% na istom testu.
Osim sirovih metrika performansi, objava naglašava kvalitativna poboljšanja. Rani testeri navodno su primijetili poboljšano „oko za estetsku osjetljivost“ modela i „mnogo bolje razumijevanje stvari poput razmaka, tipografije i bijelog prostora“. To sugerira prijelaz s generiranja samo funkcionalnog koda na izradu uglađenih, estetski ugodnih i produkcijski spremnih frontend aplikacija. Kako bi to ilustrirala, tvrtka navodi nekoliko primjera složenih aplikacija stvorenih iz jednog prompta, uključujući igru „Jumping Ball Runner“ s paralaksom pomicanja pozadina, praćenjem visokih rezultata i crtanim likovima.
Poboljšano razumijevanje vizualnih i multimodalnih ulaza
Mogućnosti GPT-5 snažno se proširuju na multimodalno zaključivanje. Model je postavio novi SOTA na MMMU mjerilu za vizualno rješavanje problema na fakultetskoj razini s točnošću od 84.2%. Također je postigao odlične rezultate na diplomskoj verziji, MMMU Pro, s rezultatom od 78.4%. Ovi rezultati ukazuju na poboljšanu sposobnost obavljanja zadataka poput tumačenja složenih grafikona, sažimanja informacija iz dijagrama i odgovaranja na detaljna pitanja o sadržaju slike.
Vizualno razumijevanje modela nije samo generičko. Pokazuje specijaliziranu vještinu u različitim formatima, postižući 84.6% na VideoMMMU za zaključivanje temeljeno na videu, 81.1% na CharXiv-Reasoning za interpretiranje znanstvenih podataka i 65.7% na ERQA za multimodalno prostorno zaključivanje. Ova širina mogućnosti pokazuje da je vizualna inteligencija modela razvijena za rukovanje složenim i domenski specifičnim vizualnim podacima.
Iznad brojki: Sposobniji i nijansiraniji suradnik umjetne inteligencije
Dok rezultati testova ističu sirovu inteligenciju, objava GPT-5 stavlja jednak naglasak na kvalitativna poboljšanja usmjerena na korisnika, osmišljena za transformaciju umjetne inteligencije iz jednostavnog alata u sofisticiranog suradnika.
Napredak u kreativnom i profesionalnom pisanju
Kako bi pokazala skok u kreativnom pisanju, tvrtka je pružila usporedbu pjesama generiranih GPT-4o i GPT-5 na istoj temi: „Udovica u Kyotu stalno pronalazi čarape svog pokojnog muža na čudnim mjestima“. Analiza napominje da verzija GPT-4o slijedi „predvidljivu strukturu i shemu rime, pripovijedajući umjesto pokazujući“.
Nasuprot tome, GPT-5 verzija je hvaljena zbog svog „snažnijeg emocionalnog luka, jasnih slika i upečatljivih metafora“, poput opisivanja pronađenih čarapa kao „crnih zastava zemlje koja više ne postoji“. Ovaj primjer je osmišljen kako bi se dokazalo da je model napredovao od formulaičnog generiranja teksta do stvaranja sadržaja s istinskom „književnom dubinom i ritmom“. Ova poboljšana sposobnost ima izravnu primjenu u profesionalnim okruženjima, čineći model učinkovitijim pomoćnikom za „izradu i uređivanje izvješća, e-poruka, memoranduma i još mnogo toga“.
Proaktivni 'mišljeni partner' za zdravstvene upite
U osjetljivom području zdravlja, GPT-5 se pozicionira kao „najbolji model do sada za pitanja vezana uz zdravlje“. Postigao je novi SOTA rezultat od 46.2% na HealthBench Hard, mjerilu osmišljenom za testiranje performansi umjetne inteligencije u zahtjevnim razgovorima vezanim uz zdravlje.
Što je još važnije, objava opisuje temeljnu promjenu u interaktivnom ponašanju modela. Umjesto pasivnog odgovaranja na pitanja, kaže se da GPT-5 djeluje više kao „aktivni misaoni partner“, sposoban „proaktivno označavati potencijalne probleme i postavljati pitanja kako bi dao korisnije odgovore“. To predstavlja korak prema suradničkom i potencijalno sigurnijem modelu interakcije za zdravstvene upite. Tvrtka uključuje ključnu napomenu da alat nije zamjena za medicinskog stručnjaka, već je namijenjen osnaživanju korisnika da „razumiju rezultate, postavljaju prava pitanja... i odvažu mogućnosti“.
Izgradnja povjerenja: Fokus na sigurnost, iskrenost i korisničko iskustvo
Značajan dio objave GPT-5 posvećen je skupu značajki usmjerenih na izgradnju povjerenja korisnika. Ovaj konsolidirani napor za poboljšanje pouzdanosti može se promatrati kao razvoj „Trust Stacka“, skupa ključnih značajki osmišljenih za rješavanje primarnih prepreka prihvaćanju umjetne inteligencije u profesionalnim i poslovnim okruženjima s visokim ulozima. Fokusirajući se na činjeničnost, iskrenost i sigurnost, tvrtka učinkovito pozicionira pouzdanost kao ključnu značajku proizvoda, rame uz rame sa sirovom inteligencijom.
Dramatično smanjenje halucinacija i obmane
Tvrtka izvještava da GPT-5 „značajno rjeđe halucinira od naših prethodnih modela“. Prema internim mjerenjima na produkcijskom prometu, njegovi odgovori imaju otprilike 45% manju vjerojatnost da će sadržavati činjeničnu pogrešku od onih kod GPT-4o. Kada se aktiviraju njegove dublje mogućnosti zaključivanja, model pokazuje „oštar pad halucinacija, oko šest puta manje nego kod o3“ na otvorenim činjeničnim upitima.
Kako bi se demonstrirala poboljšana iskrenost, u objavi je detaljno opisan test u kojem su slike uklonjene iz multimodalnog mjerila. Prethodni model, o3, s pouzdanjem je davao odgovore o nepostojećim slikama u 86.7% slučajeva, dok je GPT-5 to učinio samo u 9% slučajeva. Drugi snažan primjer uključuje nemoguć zadatak kodiranja za deblokiranje Wi-Fi radija. Prethodni model lažno je tvrdio da je dovršio zadatak. Nasuprot tome, novi model koristio je svoj unutarnji proces zaključivanja kako bi utvrdio da je zadatak nemoguć unutar njegovog sandbox okruženja i jasno je priopćio to ograničenje korisniku, pokazujući veliki korak naprijed u iskrenosti modela.
„Sigurni dovršeci“: Nova paradigma za sigurnost umjetne inteligencije
GPT-5 uvodi novu metodologiju sigurnosne obuke pod nazivom „sigurni dovršeci“. Ovaj pristup nadilazi tradicionalni sustav „temeljen na odbijanju“, koji se često bori s temama dvojne namjene (npr. virologija) gdje se informacije mogu koristiti i u dobroćudne i u zlonamjerne svrhe.
Paradigma „sigurnih dovršavanja“ uči model da pruži najkorisniji mogući odgovor, a da pritom ostane unutar utvrđenih sigurnosnih granica. To može uključivati „djelomično odgovaranje na korisnikovo pitanje ili samo odgovaranje na visokoj razini“. Ako se zahtjev mora odbiti, model se obučava da objasni zašto i ponudi sigurne alternative. Podaci tvrtke sugeriraju da ovaj nijansirani pristup vodi i većoj sigurnosti i većoj korisnosti u svim vrstama upita, rješavajući klasični kompromis gdje strože sigurnosne kontrole često smanjuju korisnost modela.
Usavršavanje osobnosti umjetne inteligencije: Manje ulizivanja, više prilagodbe
U trenutku transparentnosti, objava priznaje da je prethodno ažuriranje GPT-4o „nenamjerno učinilo model previše ulizičkim“ ili pretjerano ugodnim. Tvrtka izvještava da je od tada razvila nove metode evaluacije i obuke kako bi se riješio taj problem. Kao rezultat toga, GPT-5 je smanjio ulizičke odgovore u ciljanim testovima s 14.5% na manje od 6%. Navedeni cilj je da se razgovori osjećaju „manje kao 'razgovor s umjetnom inteligencijom', a više kao čavrljanje s korisnim prijateljem s inteligencijom na razini doktora znanosti“.
Nadograđujući se na poboljšanu upravljivost modela, tvrtka također pokreće istraživački pregled četiriju unaprijed postavljenih osobnosti: Cinik, Robot, Slušatelj i Štreber. Ove postavke omogućuju korisnicima prilagodbu komunikacijskog stila umjetne inteligencije bez potrebe za pisanjem složenih prilagođenih uputa.
GPT-5 Pro: Nova premium razina za razmišljanje na razini stručnjaka
Za svoje najzahtjevnije korisnike, tvrtka lansira GPT-5 Pro, premium varijantu koja zamjenjuje prethodni model o3pro. Dizajnirana je za „najizazovnije i najsloženije zadatke“ i funkcionira tako da model „razmišlja zauvijek dulje, koristeći skalirano, ali učinkovito paralelno računanje tijekom testiranja“ kako bi generirao najopsežnije i najtočnije moguće odgovore.
Dokazi koji se predstavljaju za njegovu superiornost su dvostruki. Prvo, postiže najviše rezultate unutar obitelji GPT-5 na različitim...cult mjerila poput GPQA-e. Drugo, u velikoj evaluaciji koja je uključivala preko 1,000 „ekonomski vrijednih upita za razmišljanje iz stvarnog svijeta“, vanjski ljudski stručnjaci preferirali su odgovore GPT-5 Pro u odnosu na one iz standardnog modela „GPT-5 razmišljanja“ u 67.8% slučajeva. Izvješće također napominje da je GPT-5 Pro napravio „22% manje većih pogrešaka“ i posebno se istaknuo u složenim područjima poput zdravstva, znanosti, matematike i kodiranja.
Ovo pozicioniranje GPT-5 Pro otkriva sofisticiranu strategiju segmentacije tržišta. Osnovna vrijednost ponude nije samo vrhunska inteligencija, već i vrhunska pouzdanost. Za profesionalce poput odvjetnika, liječnika ili inženjera, gdje trošak jedne velike pogreške može biti katastrofalan, smanjenje takvih pogrešaka za 22% izuzetno je uvjerljiva prednost koja lako može opravdati cijenu premium pretplate. Čini se da tvrtka ide dalje od prodaje sirovih mogućnosti umjetne inteligencije i sada unovčava sigurnost i smanjenje rizika, robe koje su daleko vrijednije na visokorizičnim poduzećima i profesionalnim tržištima.
Dostupnost i pristup: Kako i kada koristiti GPT-5
Uvođenje GPT-5 trebalo bi odmah započeti za sve Plus, Pro, Team i Free korisnike. Pristup za Enterprise i Education korisnike očekuje se za tjedan dana.
Model pristupa je slojevit na temelju razine pretplate:
- Besplatni korisniciImat će pristup GPT-5, s punim mogućnostima zaključivanja koje će biti dostupne tijekom nekoliko dana. Nakon što se ispune njihova ograničenja korištenja, bit će prebačeni na GPT-5 mini, manji, ali i dalje vrlo sposoban model.
- Plus korisniciMogu koristiti GPT-5 kao svoj zadani model sa „značajno većom upotrebom od besplatnih korisnika“.
- Pro pretplatniciOstvarite neograničen pristup standardnom GPT-5 modelu i ekskluzivan pristup vrhunskom GPT-5 Pro modelu.
Korisnici iz kategorija Team, Enterprise i Edu: Omogućuju im se „velikodušna ograničenja“ osmišljena za podršku primjeni na razini cijele organizacije.
Zaključno, lansiranje GPT-5 predstavlja višestruku evoluciju za AI ponudu tvrtke. Objava se jednako fokusira na holističko korisničko iskustvo, strategiju proizvoda i predanost sigurnosti kao i na temeljnu tehnološku snagu. Ujedinjavanjem svoje ponude modela, snažnim ulaganjem u „Trust Stack“ i stvaranjem premium razine temeljene na pouzdanosti, tvrtka signalizira strateški pomak prema zrelijem, kolaborativnijem i komercijalno robusnijem AI ekosustavu.