| Benchmark (dominio) |
Metrico |
GPT-4o |
OpenAI o3 |
GPT-5 |
GPT-5 Pro |
| GPQA Diamond (Dottorato di Ricerca in Scienze) |
Precisione, pass@1 |
77.8% |
83.3% |
85.7% |
88.4% |
| SWE-bench verificato (codifica) |
Pass@1 |
30.8% |
52.8% |
74.9% |
N/A |
| AIME 2025 (Matematica di competizione) |
Pass@1 (con strumenti) |
42.1% (pitone) |
88.9% (pitone) |
71.0% (pitone) |
94.6% (pitone) |
| HealthBench Hard (Salute) |
Punti |
0.0% |
25.5% |
46.2% |
N/A |
| MMMU (Multimodale) |
Precisione, superamento @1 |
72.2% |
74.4% |
84.2% |
N/A |
Dominanza nel ragionamento scientifico e matematico
Un'affermazione degna di nota è la performance di GPT-5 Pro nel GPQA Diamond, un benchmark composto da quesiti scientifici di livello dottorale, impegnativi anche per esperti umani. Il modello ha raggiunto un punteggio dell'88.4% senza l'utilizzo di strumenti esterni, stabilendo un nuovo SOTA e segnalando un significativo progresso nella capacità dell'IA di risolvere autenticamente i problemi scientifici.
Anche in matematica, il modello dimostra capacità formidabili. Nel benchmark di matematica della competizione AIME 2025, GPT-5 Pro ha ottenuto un punteggio del 94.6% se equipaggiato con uno strumento di calcolo Python. Nel benchmark dell'Harvard-MIT Mathematics Tournament (HMMT), ha raggiunto un'accuratezza del 99.6%. Questi test vanno ben oltre la semplice aritmetica, richiedendo un ragionamento sofisticato e articolato in più fasi per risolvere problemi complessi, dimostrando le avanzate capacità logiche e di problem-solving del modello, in particolare quando può sfruttare un ambiente di programmazione.
Un balzo in avanti per sviluppatori e programmatori
Per la comunità di sviluppo software, GPT-5 è presentato come "il modello di codifica più solido fino ad oggi" dell'azienda. Questa affermazione è supportata da un punteggio del 74.9% su SWE-bench Verified, un benchmark che valuta la capacità di un'intelligenza artificiale di risolvere problemi di ingegneria del software reali provenienti da repository GitHub. Questo risultato rappresenta un netto miglioramento rispetto al punteggio del 4% di GPT-30.8o nello stesso test.
Oltre alle metriche puramente prestazionali, l'annuncio sottolinea i miglioramenti qualitativi. I primi tester avrebbero notato una maggiore "attenzione per l'estetica" del modello e una "comprensione molto migliore di aspetti come spaziatura, tipografia e spazi bianchi". Ciò suggerisce una transizione dalla generazione di codice meramente funzionale alla produzione di applicazioni frontend raffinate, esteticamente gradevoli e pronte per la produzione. Per illustrare ciò, l'azienda cita diversi esempi di applicazioni complesse create da un singolo prompt, tra cui un gioco "Jumping Ball Runner" completo di sfondi a scorrimento parallasse, tracciamento dei punteggi più alti e personaggi in stile cartoon.
Comprensione migliorata degli input visivi e multimodali
Le capacità di GPT-5 si estendono ampiamente al ragionamento multimodale. Il modello ha stabilito un nuovo SOTA nel benchmark MMMU per la risoluzione di problemi visivi a livello universitario, con un punteggio di accuratezza dell'84.2%. Ha ottenuto ottimi risultati anche nella versione per laureati, MMMU Pro, con un punteggio del 78.4%. Questi risultati indicano una maggiore capacità di eseguire attività come l'interpretazione di grafici complessi, il riepilogo di informazioni da diagrammi e la risposta a domande dettagliate sul contenuto di un'immagine.
La comprensione visiva del modello non è meramente generica. Dimostra competenze specialistiche in diversi formati, ottenendo un punteggio dell'84.6% su VideoMMMU per il ragionamento basato su video, dell'81.1% su CharXiv-Reasoning per l'interpretazione di figure scientifiche e del 65.7% su ERQA per il ragionamento spaziale multimodale. Questa ampiezza di capacità dimostra che l'intelligenza visiva del modello è stata sviluppata per gestire dati visivi complessi e specifici di un dominio.
Oltre i numeri: un collaboratore AI più capace e articolato
Mentre i punteggi di riferimento evidenziano l'intelligenza grezza, l'annuncio del GPT-5 pone la stessa enfasi sui miglioramenti qualitativi rivolti all'utente, progettati per trasformare l'intelligenza artificiale da un semplice strumento in un collaboratore sofisticato.
Progressi nella scrittura creativa e professionale
Per evidenziare un balzo in avanti nella scrittura creativa, l'azienda ha fornito un confronto affiancato di poesie generate da GPT-4o e GPT-5 sullo stesso prompt: "Una vedova di Kyoto continua a trovare i calzini del suo defunto marito in posti strani". L'analisi rileva che la versione GPT-4o segue una "struttura e uno schema di rime prevedibili, raccontando invece di mostrare".
Al contrario, la versione GPT-5 è elogiata per il suo "arco emotivo più forte, le immagini chiare e le metafore sorprendenti", come la descrizione dei calzini ritrovati come "bandiere nere di un paese che non esiste più". Questo esempio è curato per dimostrare che il modello è passato dalla generazione di testo stereotipato alla creazione di contenuti con autentica "profondità e ritmo letterari". Questa capacità avanzata ha applicazioni dirette in contesti professionali, rendendo il modello un assistente più efficace per "la redazione e la modifica di report, e-mail, promemoria e altro ancora".
Un "partner di pensiero" proattivo per le richieste di informazioni sanitarie
Nel delicato ambito della salute, GPT-5 si posiziona come "il miglior modello finora per le questioni relative alla salute". Ha ottenuto un nuovo punteggio SOTA del 46.2% su HealthBench Hard, un benchmark progettato per testare le prestazioni dell'intelligenza artificiale in conversazioni complesse relative alla salute.
Ancora più importante, l'annuncio descrive un cambiamento fondamentale nel comportamento interattivo del modello. Invece di rispondere passivamente alle domande, GPT-5 si comporta più come un "partner di pensiero attivo", in grado di "segnalare proattivamente potenziali preoccupazioni e porre domande per fornire risposte più utili". Questo rappresenta un passo avanti verso un modello di interazione più collaborativo e potenzialmente più sicuro per le richieste di informazioni sanitarie. L'azienda include l'importante disclaimer che lo strumento non sostituisce un professionista medico, ma è concepito per consentire agli utenti di "comprendere i risultati, porre le domande giuste... e valutare le opzioni".
Costruire la fiducia: attenzione alla sicurezza, all'onestà e all'esperienza utente
Una parte sostanziale dell'annuncio GPT-5 è dedicata a una serie di funzionalità volte a rafforzare la fiducia degli utenti. Questo impegno consolidato per migliorare l'affidabilità può essere visto come lo sviluppo di un "Trust Stack", un insieme di funzionalità fondamentali progettate per affrontare i principali ostacoli all'adozione dell'IA in ambienti professionali e aziendali ad alto rischio. Concentrandosi su fattualità, onestà e sicurezza, l'azienda sta effettivamente posizionando l'affidabilità come una caratteristica chiave del prodotto, alla pari dell'intelligenza grezza.
Riduzione drastica delle allucinazioni e dell'inganno
L'azienda afferma che GPT-5 ha "significativamente meno probabilità di allucinazioni rispetto ai nostri modelli precedenti". Secondo misurazioni interne sul traffico di produzione, le sue risposte hanno circa il 45% di probabilità in meno di contenere un errore fattuale rispetto a quelle di GPT-4. Quando vengono attivate le sue capacità di ragionamento più approfondite, il modello mostra un "netto calo delle allucinazioni, circa sei volte inferiore a o3" nelle richieste di informazioni fattuali aperte.
Per dimostrare una maggiore onestà, l'annuncio descrive un test in cui le immagini sono state rimosse da un benchmark multimodale. Il modello precedente, o3, forniva con sicurezza risposte sulle immagini inesistenti nell'86.7% dei casi, mentre GPT-5 lo faceva solo nel 9%. Un altro esempio significativo riguarda un compito di codifica impossibile per sbloccare una radio Wi-Fi. Il modello precedente affermava falsamente di aver completato il compito. Al contrario, il nuovo modello ha utilizzato il suo processo di ragionamento interno per identificare che il compito era impossibile all'interno del suo ambiente sandbox e ha comunicato chiaramente questa limitazione all'utente, mostrando un importante passo avanti nell'onestà del modello.
“Completamenti sicuri”: un nuovo paradigma per la sicurezza dell’IA
GPT-5 introduce una nuova metodologia di formazione sulla sicurezza denominata "completamenti sicuri". Questo approccio va oltre il tradizionale sistema "basato sul rifiuto", che spesso ha difficoltà con argomenti a duplice uso (ad esempio, la virologia), in cui le informazioni possono essere utilizzate sia per scopi benigni che dannosi.
Il paradigma dei "completamenti sicuri" insegna al modello a fornire la risposta più utile possibile, pur rimanendo entro i limiti di sicurezza stabiliti. Questo può comportare "una risposta parziale alla domanda di un utente o una risposta solo di alto livello". Se una richiesta deve essere negata, il modello viene addestrato a spiegarne il motivo e a offrire alternative sicure. I dati dell'azienda suggeriscono che questo approccio sfumato porta sia a una maggiore sicurezza che a una maggiore utilità in tutti i tipi di richieste, risolvendo il classico compromesso in cui controlli di sicurezza più rigorosi spesso riducono l'utilità di un modello.
Affinare la personalità dell'IA: meno adulazione, più personalizzazione
In un momento di trasparenza, l'annuncio riconosce che un precedente aggiornamento di GPT-4o "ha reso involontariamente il modello eccessivamente adulatorio" o eccessivamente accomodante. L'azienda riferisce di aver sviluppato nuove valutazioni e metodi di addestramento per risolvere questo problema. Di conseguenza, GPT-5 ha ridotto le risposte adulatorie nei test mirati dal 14.5% a meno del 6%. L'obiettivo dichiarato è quello di far sì che le conversazioni sembrino "meno come 'parlare con l'IA' e più come chiacchierare con un amico disponibile con un'intelligenza pari a quella di un dottorato di ricerca".
Grazie alla migliorata manovrabilità del modello, l'azienda sta anche lanciando un'anteprima di ricerca con quattro personalità preimpostate: Cinico, Robot, Ascoltatore e Nerd. Queste impostazioni di attivazione consentono agli utenti di personalizzare lo stile di comunicazione dell'IA senza dover scrivere complesse istruzioni personalizzate.
GPT-5 Pro: un nuovo livello Premium per il ragionamento di livello esperto
Per gli utenti più esigenti, l'azienda lancia GPT-5 Pro, una variante premium che sostituisce il precedente modello o3pro. È progettato per i "compiti più impegnativi e complessi" e funziona facendo in modo che il modello "pensi per un tempo sempre più lungo, utilizzando un calcolo parallelo in fase di test scalabile ma efficiente" per generare le risposte più complete e accurate possibili.
Le prove presentate per la sua superiorità sono duplici. In primo luogo, raggiunge i punteggi più alti all'interno della famiglia GPT-5 su difficoltàcult benchmark come GPQA. In secondo luogo, in una valutazione su larga scala che ha coinvolto oltre 1,000 "richieste di ragionamento economiche e concrete", esperti umani esterni hanno preferito le risposte di GPT-5 Pro rispetto a quelle del modello standard di "pensiero GPT-5" nel 67.8% dei casi. Il rapporto rileva inoltre che GPT-5 Pro ha commesso "il 22% di errori gravi in meno" e si è distinto in particolare in ambiti complessi come salute, scienza, matematica e programmazione.
Questo posizionamento di GPT-5 Pro rivela una sofisticata strategia di segmentazione del mercato. La proposta di valore fondamentale non è solo un'intelligenza superiore, ma anche un'affidabilità superiore. Per professionisti come avvocati, medici o ingegneri, per i quali il costo di un singolo errore grave può essere catastrofico, una riduzione del 22% di tali errori rappresenta un vantaggio estremamente interessante, che può facilmente giustificare il costo di un abbonamento premium. L'azienda sembra andare oltre la vendita di funzionalità di intelligenza artificiale allo stato puro e ora sta monetizzando la certezza e la riduzione del rischio, beni di gran lunga più preziosi nei mercati aziendali e professionali ad alto rischio.
Disponibilità e accesso: come e quando utilizzare GPT-5
Il lancio di GPT-5 è previsto per l'immediato per tutti gli utenti Plus, Pro, Team e Free. L'accesso per i clienti Enterprise ed Education è previsto entro una settimana.
Il modello di accesso è suddiviso in livelli in base al livello di abbonamento:
- Utenti gratuiti: Avranno accesso a GPT-5, con funzionalità di ragionamento complete che saranno implementate nel giro di pochi giorni. Una volta raggiunti i limiti di utilizzo, passeranno a GPT-5 mini, un modello più piccolo ma comunque altamente performante.
- Più utenti: È possibile utilizzare GPT-5 come modello predefinito con "un utilizzo significativamente maggiore rispetto agli utenti gratuiti".
- Abbonati Pro: Ricevi accesso illimitato al modello GPT-5 standard e accesso esclusivo al modello GPT-5 Pro di fascia alta.
Clienti Team, Enterprise e Edu: sono previsti "limiti generosi" pensati per supportare l'adozione in tutta l'organizzazione.
In conclusione, il lancio di GPT-5 rappresenta un'evoluzione multiforme per l'offerta di intelligenza artificiale dell'azienda. L'annuncio si concentra tanto sull'esperienza utente olistica, sulla strategia di prodotto e sull'impegno per la sicurezza quanto sulla potenza tecnologica di base. Unificando la sua gamma di modelli, investendo in modo significativo in un "Trust Stack" e creando un livello premium basato sull'affidabilità, l'azienda sta segnalando una spinta strategica verso un ecosistema di intelligenza artificiale più maturo, collaborativo e commercialmente solido.