| Benchmark (domena) |
metryczny |
GPT-4o |
OtwórzAI o3 |
GPT-5 |
GPT-5 Pro |
| Diament GPQA (doktorat z nauk ścisłych) |
Dokładność, pass@1 |
77.8% |
83.3% |
85.7% |
88.4% |
| Zweryfikowano w SWE-bench (kodowanie) |
Przepustka@1 |
30.8% |
52.8% |
74.9% |
N / A |
| AIME 2025 (Konkurs Matematyczny) |
Pass@1 (z narzędziami) |
42.1% (pyton) |
88.9% (pyton) |
71.0% (pyton) |
94.6% (pyton) |
| HealthBench Hard (Zdrowie) |
Wynik |
0.0% |
25.5% |
46.2% |
N / A |
| MMMU (Multimodalny) |
Dokładność, podanie @1 |
72.2% |
74.4% |
84.2% |
N / A |
Dominacja w rozumowaniu naukowym i matematycznym
Wyjątkowym osiągnięciem jest wydajność GPT-5 Pro w teście GPQA Diamond, składającym się z pytań naukowych na poziomie doktorskim, stanowiących wyzwanie nawet dla ekspertów. Model uzyskał wynik 88.4% bez użycia narzędzi zewnętrznych, ustanawiając nowy SOTA i sygnalizując znaczący postęp w zdolności sztucznej inteligencji do rozwiązywania rzeczywistych problemów naukowych.
Model ten wykazuje również imponujące możliwości matematyczne. W teście matematycznym AIME 2025, GPT-5 Pro uzyskał wynik 94.6% po wyposażeniu w narzędzie Python do obliczeń. W teście Harvard-MIT Mathematics Tournament (HMMT) osiągnął dokładność 99.6%. Testy te wykraczają daleko poza prostą arytmetykę, wymagając zaawansowanego, wieloetapowego rozumowania do rozwiązywania złożonych problemów, co pokazuje zaawansowane umiejętności logiczne i rozwiązywania problemów modelu, szczególnie w przypadku wykorzystania środowiska programistycznego.
Krok naprzód dla programistów i programistów
W środowisku programistów, GPT-5 jest przedstawiany jako „najsilniejszy jak dotąd model kodowania” firmy. Potwierdza to wynik 74.9% w teście SWE-bench Verified, który ocenia zdolność sztucznej inteligencji do rozwiązywania rzeczywistych problemów inżynierii oprogramowania, pochodzących z repozytoriów GitHub. Wynik ten stanowi znaczną poprawę w porównaniu z wynikiem 4% uzyskanym przez GPT-30.8o w tym samym teście.
Oprócz surowych wskaźników wydajności, w ogłoszeniu podkreślono poprawę jakościową. Wcześni testerzy podobno zauważyli ulepszone „wyczucie estetyki” modelu oraz „znacznie lepsze zrozumienie takich kwestii, jak odstępy, typografia i białe przestrzenie”. Sugeruje to przejście od generowania wyłącznie funkcjonalnego kodu do tworzenia dopracowanych, estetycznych i gotowych do produkcji aplikacji front-endowych. Aby to zilustrować, firma wskazuje na kilka przykładów złożonych aplikacji stworzonych z jednego polecenia, w tym grę „Jumping Ball Runner” z przewijanymi tłami z efektem paralaksy, śledzeniem wyników i postaciami z kreskówek.
Lepsze zrozumienie danych wizualnych i multimodalnych
Możliwości GPT-5 obejmują również rozumowanie multimodalne. Model ten ustanowił nowy standard SOTA w teście MMMU dla rozwiązywania problemów wizualnych na poziomie uniwersyteckim, uzyskując 84.2% dokładności. Uzyskał również wysoką skuteczność w wersji dla absolwentów, MMMU Pro, uzyskując wynik 78.4%. Wyniki te wskazują na zwiększoną zdolność do wykonywania zadań takich jak interpretacja złożonych wykresów, podsumowywanie informacji z diagramów i odpowiadanie na szczegółowe pytania dotyczące zawartości obrazu.
Rozumienie wizualne modelu nie jest wyłącznie generyczne. Wykazuje on specjalistyczną biegłość w różnych formatach, uzyskując 84.6% w teście VideoMMMU w zakresie rozumowania opartego na wideo, 81.1% w teście CharXiv-Reasoning w zakresie interpretowania danych naukowych oraz 65.7% w teście ERQA w zakresie multimodalnego rozumowania przestrzennego. Ten szeroki zakres możliwości pokazuje, że inteligencja wizualna modelu została opracowana do obsługi złożonych i specyficznych dla danej dziedziny danych wizualnych.
Poza liczbami: bardziej zdolna i dopracowana sztuczna inteligencja współpracująca
Podczas gdy wyniki testów porównawczych podkreślają surową inteligencję, ogłoszenie GPT-5 kładzie równy nacisk na jakościowe usprawnienia zorientowane na użytkownika, mające na celu przekształcenie sztucznej inteligencji z prostego narzędzia w zaawansowane narzędzie do współpracy.
Postępy w pisaniu kreatywnym i profesjonalnym
Aby pokazać postęp w pisaniu kreatywnym, firma porównała wiersze wygenerowane przez GPT-4o i GPT-5 na ten sam temat: „Wdowa z Kioto ciągle znajduje skarpetki swojego zmarłego męża w dziwnych miejscach”. Analiza zauważa, że wersja GPT-4o ma „przewidywalną strukturę i schemat rymów, opowiadając zamiast pokazywać”.
Z kolei wersja GPT-5 jest chwalona za „silniejszy przekaz emocjonalny, klarowne obrazy i uderzające metafory”, na przykład opis znalezionych skarpetek jako „czarnych flag kraju, który już nie istnieje”. Ten przykład został opracowany, aby udowodnić, że model przeszedł od formułowego generowania tekstu do tworzenia treści o autentycznej „głębi literackiej i rytmicznej” treści. Ta ulepszona funkcjonalność ma bezpośrednie zastosowanie w środowisku profesjonalnym, czyniąc model skuteczniejszym asystentem do „tworzenia i edytowania raportów, e-maili, notatek i nie tylko”.
Proaktywny „partner myślowy” w zakresie zapytań dotyczących zdrowia
W obszarze wrażliwym, jakim jest zdrowie, GPT-5 jest pozycjonowany jako „najlepszy jak dotąd model do pytań związanych ze zdrowiem”. Uzyskał nowy wynik SOTA wynoszący 46.2% w teście HealthBench Hard, benchmarku zaprojektowanym do testowania wydajności sztucznej inteligencji w trudnych rozmowach na tematy związane ze zdrowiem.
Co ważniejsze, ogłoszenie opisuje fundamentalną zmianę w interaktywnym zachowaniu modelu. Zamiast biernego odpowiadania na pytania, GPT-5 ma działać bardziej jak „aktywny partner myślowy”, zdolny do „proaktywnego sygnalizowania potencjalnych obaw i zadawania pytań w celu udzielania bardziej pomocnych odpowiedzi”. Stanowi to krok w kierunku bardziej opartego na współpracy i potencjalnie bezpieczniejszego modelu interakcji w przypadku zapytań dotyczących zdrowia. Firma zamieściła kluczowe zastrzeżenie, że narzędzie nie zastępuje lekarza, lecz ma umożliwić użytkownikom „zrozumienie wyników, zadawanie właściwych pytań… i rozważanie opcji”.
Budowanie zaufania: nacisk na bezpieczeństwo, uczciwość i doświadczenia użytkownika
Znaczna część ogłoszenia GPT-5 poświęcona jest zestawowi funkcji mających na celu budowanie zaufania użytkowników. Ten skonsolidowany wysiłek na rzecz poprawy niezawodności można postrzegać jako rozwój „Trust Stack”, zestawu podstawowych funkcji zaprojektowanych w celu wyeliminowania głównych barier utrudniających wdrażanie sztucznej inteligencji w środowiskach profesjonalnych i korporacyjnych o wysokim ryzyku. Koncentrując się na faktach, uczciwości i bezpieczeństwie, firma skutecznie pozycjonuje wiarygodność jako kluczową cechę produktu, równą samej inteligencji.
Drastyczna redukcja halucynacji i oszustw
Firma informuje, że GPT-5 „znacznie rzadziej powoduje halucynacje niż nasze poprzednie modele”. Według wewnętrznych pomiarów ruchu produkcyjnego, prawdopodobieństwo wystąpienia błędu rzeczowego w odpowiedziach GPT-45 jest o około 4% niższe niż w przypadku GPT-3o. Po uruchomieniu głębszych możliwości rozumowania, model wykazuje „gwałtowny spadek liczby halucynacji, około sześciokrotnie mniejszy niż w przypadku oXNUMX” w przypadku pytań o charakterze faktograficznym.
Aby zademonstrować lepszą uczciwość, w ogłoszeniu opisano test, w którym obrazy zostały usunięte z multimodalnego benchmarku. Poprzedni model, o3, pewnie udzielał odpowiedzi na temat nieistniejących obrazów w 86.7% przypadków, podczas gdy GPT-5 robił to tylko w 9%. Innym wymownym przykładem jest niemożliwe do wykonania zadanie kodowania, mające na celu odblokowanie radia Wi-Fi. Poprzedni model fałszywie twierdził, że wykonał zadanie. Natomiast nowy model, wykorzystując swój wewnętrzny proces wnioskowania, zidentyfikował, że zadanie jest niemożliwe do wykonania w jego środowisku testowym i jasno zakomunikował to ograniczenie użytkownikowi, co stanowi znaczący krok naprzód w zakresie uczciwości modelu.
„Bezpieczne zakończenia”: nowy paradygmat bezpieczeństwa sztucznej inteligencji
GPT-5 wprowadza nową metodologię szkoleń z zakresu bezpieczeństwa, zwaną „bezpiecznymi ukończeniami”. To podejście wykracza poza tradycyjny system „oparty na odmowie”, który często napotyka trudności w przypadku zagadnień o podwójnym przeznaczeniu (np. wirusologii), gdzie informacje mogą być wykorzystywane zarówno w celach nieszkodliwych, jak i szkodliwych.
Paradygmat „bezpiecznych uzupełnień” uczy model udzielania możliwie najbardziej pomocnych odpowiedzi, jednocześnie pozostając w ustalonych granicach bezpieczeństwa. Może to oznaczać „częściową odpowiedź na pytanie użytkownika lub udzielenie odpowiedzi tylko na wysokim poziomie”. Jeśli żądanie musi zostać odrzucone, model jest trenowany w celu wyjaśnienia przyczyny i zaproponowania bezpiecznych alternatyw. Dane firmy sugerują, że to zróżnicowane podejście prowadzi zarówno do większego bezpieczeństwa, jak i większej przydatności w przypadku wszystkich typów monitów, rozwiązując klasyczny problem, gdzie bardziej rygorystyczne kontrole bezpieczeństwa często zmniejszają użyteczność modelu.
Doskonalenie osobowości sztucznej inteligencji: mniej pochlebstw, więcej możliwości personalizacji
W ramach transparentności, w ogłoszeniu przyznano, że wcześniejsza aktualizacja GPT-4o „nieumyślnie uczyniła model nadmiernie pochlebczym” lub nadmiernie ugodowym. Firma informuje, że od tego czasu opracowała nowe metody oceny i szkolenia, aby temu zaradzić. W rezultacie GPT-5 zmniejszył odsetek pochlebczych odpowiedzi w testach ukierunkowanych z 14.5% do mniej niż 6%. Deklarowanym celem jest sprawienie, aby rozmowy „mniej przypominały «rozmowę ze sztuczną inteligencją», a bardziej pogawędkę z pomocnym przyjacielem o inteligencji na poziomie doktora”.
Bazując na ulepszonej sterowalności modelu, firma wprowadza również testowy podgląd czterech predefiniowanych osobowości: Cynik, Robot, Słuchacz i Nerd. Te opcjonalne ustawienia pozwalają użytkownikom dostosować styl komunikacji sztucznej inteligencji bez konieczności pisania złożonych instrukcji.
GPT-5 Pro: nowy poziom premium dla rozumowania na poziomie eksperckim
Dla najbardziej wymagających użytkowników firma wprowadza GPT-5 Pro, wariant premium, który zastępuje poprzedni model o3pro. Został on zaprojektowany do „najbardziej wymagających, złożonych zadań” i działa w oparciu o zasadę, że model „myśli coraz dłużej, wykorzystując skalowalne, ale wydajne, równoległe obliczenia w czasie testowania”, aby generować możliwie najbardziej kompleksowe i dokładne odpowiedzi.
Przedstawione dowody na jego wyższość są dwojakie. Po pierwsze, osiąga najwyższe wyniki w rodzinie GPT-5 w teście difficile.cult benchmarki, takie jak GPQA. Po drugie, w szeroko zakrojonej ocenie obejmującej ponad 1,000 „ekonomicznie wartościowych, praktycznych wskazówek do rozumowania”, zewnętrzni eksperci preferowali odpowiedzi GPT-5 Pro w 5% przypadków niż odpowiedzi ze standardowego modelu „myślenia GPT-67.8”. W raporcie zauważono również, że GPT-5 Pro popełnił „o 22% mniej poważnych błędów” i szczególnie dobrze radził sobie w złożonych dziedzinach, takich jak zdrowie, nauki ścisłe, matematyka i kodowanie.
Pozycjonowanie GPT-5 Pro ujawnia wyrafinowaną strategię segmentacji rynku. Podstawową wartością jest nie tylko wyższa inteligencja, ale także wyższa niezawodność. Dla profesjonalistów takich jak prawnicy, lekarze czy inżynierowie, gdzie koszt pojedynczego, poważnego błędu może być katastrofalny, redukcja liczby takich błędów o 22% to niezwykle atrakcyjna korzyść, która z łatwością uzasadnia koszt wyższej subskrypcji. Firma wydaje się wychodzić poza sprzedaż samych możliwości sztucznej inteligencji i obecnie monetyzuje pewność i redukcję ryzyka – towary o wiele cenniejsze na rynkach korporacyjnych i profesjonalnych o wysokiej stawce.
Dostępność i dostęp: Jak i kiedy używać GPT-5
Wdrażanie GPT-5 ma się rozpocząć natychmiast dla wszystkich użytkowników Plus, Pro, Team i Free. Dostęp dla klientów Enterprise i Education ma nastąpić w ciągu tygodnia.
Model dostępu jest podzielony na poziomy w zależności od poziomu subskrypcji:
- Wolni użytkownicy: Będą mieli dostęp do GPT-5, a pełne możliwości wnioskowania zostaną wdrożone w ciągu kilku dni. Po osiągnięciu limitów użytkowania zostaną przeniesieni na GPT-5 mini, mniejszy, ale wciąż bardzo wydajny model.
- Użytkownicy Plusa:Mogą używać GPT-5 jako domyślnego modelu, który będzie „znacznie bardziej obciążał system niż użytkownicy wersji darmowej”.
- Subskrybenci Pro:Uzyskaj nieograniczony dostęp do standardowego modelu GPT-5 i ekskluzywny dostęp do najwyższej klasy modelu GPT-5 Pro.
Klienci zespołowi, przedsiębiorstwom i edukacyjni: otrzymują „hojne limity”, które mają wspierać adopcję w całej organizacji.
Podsumowując, premiera GPT-5 stanowi wielopłaszczyznową ewolucję oferty firmy w zakresie sztucznej inteligencji. Ogłoszenie koncentruje się zarówno na holistycznym doświadczeniu użytkownika, strategii produktowej i zaangażowaniu w bezpieczeństwo, jak i na podstawowej mocy technologicznej. Ujednolicając swoją ofertę modeli, inwestując znaczne środki w „Trust Stack” i tworząc klasę premium opartą na niezawodności, firma sygnalizuje strategiczny krok w kierunku bardziej dojrzałego, opartego na współpracy i solidnego komercyjnie ekosystemu sztucznej inteligencji.