Quanto è potente la nuova GPT-5.4: spiegazione con dati ufficiali OpenAI

Analisi pratica di GPT-5.4 basata solo su fonti ufficiali OpenAI: nuove capacità, benchmark più importanti, cambi di prezzo e contesto, e confronto onesto con GPT-5.3, GPT-5.2 e GPT-5.1.

06 mar 2026· 11 min di lettura· Tecnologia

Parla con PAS7 Studio dell'uso di GPT-5.4 nei prodotti

Cover di GPT-5.4 con focus su nuove capacità e crescita nei benchmark

In breve: GPT-5.4 è il primo modello GPT-5 che sembra un vero stack professionale completo

Alla data del 6 marzo 2026, il quadro ufficiale OpenAI qui è insolitamente chiaro.

• GPT-5.4 è il frontier model OpenAI più potente ed efficiente per il lavoro professionale, e il suo salto principale è la composizione: reasoning, coding, computer use, tool use e workflow lunghi ora vivono in un unico modello mainline. [1][2]
• Le novità più visibili sono upfront planning in ChatGPT, native computer use, tool search, 1.05M context nell'API, modalità original image detail e maggiore factuality rispetto a GPT-5.2. [1][2][3][4]
• La storia benchmark più pulita è questa: GPT-5.4 supera GPT-5.2 su GDPval, SWE-Bench Pro, OSWorld-Verified, Toolathlon e BrowseComp, ereditando allo stesso tempo il livello frontier di coding da GPT-5.3-Codex. [1]
• La sfumatura importante è che GPT-5.3 è divisa tra la linea generale GPT-5.3 Chat e la linea molto più misurata GPT-5.3-Codex. Quindi il confronto più onesto con 5.4 usa entrambe, a seconda di ciò che viene misurato. [2][5][6]

Una dashboard compatta di GPT-5.4: feature stack, salto nei benchmark e scala delle versioni da 5.1 a 5.4 in un solo frame.

Le nuove capacità di GPT-5.4 e perché contano davvero

Qui ci sono i cambiamenti che modificano davvero il workflow, non solo il testo marketing del lancio.

1. Upfront planning in ChatGPT

GPT-5.4 Thinking può mostrare un piano iniziale prima di completare una risposta lunga. È utile perché permette di correggere la direzione prima e sprecare meno iterazioni su task complessi. OpenAI dice anche che GPT-5.4 migliora il deep web research, soprattutto su query specifiche e catene di thinking più lunghe. [1]

2. Native computer use in una linea general-purpose

GPT-5.4 è il primo modello general-purpose di OpenAI con una capacità native state-of-the-art di computer use. È un salto più grande di quanto sembri. Il modello mainline non è più solo un reasoner che chiama tool, ma un modello pensato per operare direttamente su siti web e ambienti software. [1][4]

3. 1.05M context window nell'API

La model page ufficiale di GPT-5.4 riporta 1,050,000 token di context window e 128,000 max output tokens. È un salto importante rispetto a GPT-5.2 e GPT-5.1, che restano a 400,000 di context e 128,000 di output. [2][7][8]

4. Tool search per ecosistemi di tool molto ampi

GPT-5.4 aggiunge tool search nell'API. Invece di caricare tutte le tool definitions nel prompt fin dall'inizio, il modello può cercare i tool quando servono davvero. OpenAI dice che su 250 MCP Atlas tasks con 36 MCP server abilitati, tool search ha ridotto il consumo totale di token del 47% mantenendo la stessa accuratezza. [1]

5. Visione high-resolution più forte

GPT-5.4 introduce una modalità original image detail per percezione full-fidelity fino a 10.24M pixel o 6000 pixel sul lato massimo. Anche high sale a 2.56M pixel o 2048 pixel sul lato massimo. Questo conta per UI screenshots, documenti densi, diagrammi e precisione di computer use. [1]

6. Factuality più alta su error report reali

OpenAI definisce GPT-5.4 il suo modello più factual di sempre su un set di prompt de-identificati dove gli utenti avevano segnalato factual errors. Rispetto a GPT-5.2, le singole affermazioni risultano false il 33% meno spesso e le risposte complete contengono errori il 18% meno spesso. [1]

Mappa pratica di ciò che cambia davvero in GPT-5.4, costruita sui release notes e model docs ufficiali di OpenAI. [1][2]

Dove GPT-5.4 alza davvero il livello

Il punto forte del lancio GPT-5.4 è che OpenAI non si nasconde dietro un solo eval. La release page ufficiale confronta direttamente GPT-5.4 con GPT-5.3-Codex e GPT-5.2 su professional work, coding, computer use e tool use. [1]

Eval	GPT-5.4	GPT-5.3-Codex	GPT-5.2	Cosa significa il salto
GDPval	83.0%	70.9%	70.9%	Grande salto nel lavoro professionale ben specificato
SWE-Bench Pro (Public)	57.7%	56.8%	55.6%	Il guadagno nel coding è reale, ma non è un dominio assoluto
OSWorld-Verified	75.0%	74.0%	47.3%	Salto enorme nel computer use rispetto a GPT-5.2
Toolathlon	54.6%	51.9%	46.3%	Migliore multi-step tool calling e orchestrazione
BrowseComp	82.7%	77.3%	65.8%	Web research e search behavior più forti e persistenti

La headline non è che GPT-5.4 distrugge GPT-5.3-Codex ovunque. Non è così. La vera storia è che GPT-5.4 si avvicina molto al modello specializzato di coding o lo supera, restando però molto più ampia. È questo che rende importante il rilascio. [1]

Ci sono alcuni dettagli ufficiali facili da perdere. GPT-5.4 arriva a 75.0% su OSWorld-Verified e OpenAI afferma che questo supera la performance umana a 72.4%. Inoltre alza BrowseComp di 17 percentage points rispetto a GPT-5.2 e viene posizionata come nuovo state of the art per il multi-step tool use. [1]

La scala benchmark ufficiale del rilascio GPT-5.4, ridotta alle metriche che contano di più nel lavoro reale. [1]

Come GPT-5.4 si confronta con GPT-5.3, GPT-5.2 e GPT-5.1

Qui la precisione conta più di tutto. Le prove pubbliche di OpenAI non sono simmetriche tra tutti i rilasci GPT-5, quindi il confronto corretto deve separare i rilasci general-purpose da quelli specializzati Codex.

Versione	Ruolo ufficiale nella lineup	Context	Max output	Prezzo input / output	Differenza più importante rispetto a 5.4
GPT-5.4	Frontier model attuale per professional work	1.05M	128k	$2.50 / $15	Aggiunge native computer use, tool search e factuality più alta sopra un livello frontier di coding [1][2]
GPT-5.3 Chat	Snapshot ChatGPT GPT-5.3 Instant	128k	16,384	$1.75 / $14	Utile per testare il comportamento chat più recente, ma non è la principale superficie benchmark per coding o agenti [6]
GPT-5.3-Codex	Modello agentic coding più capace di OpenAI nella generazione	400k	128k	$1.75 / $14	Mantiene il profilo coding specializzato più chiaro e un risultato pubblico Terminal-Bench più forte di 5.4 [5][9]
GPT-5.2	Frontier model precedente per professional work	400k	128k	$1.75 / $14	Forte su long context e knowledge work, ma ormai chiaramente dietro 5.4 su computer use, tool use e factuality [1][7]
GPT-5.1	Modello flagship per coding e agentic tasks	400k	128k	$1.25 / $10	Più economico e ancora forte, ma viene da una generazione tooling precedente a xhigh reasoning, tool search e 1.05M context [8][10]

Il modo più pulito per leggere la scala delle versioni è questo.

GPT-5.4 vs GPT-5.3

Rispetto a GPT-5.3 Chat, GPT-5.4 è un modello professionale molto più serio. Ha molto più context, max output molto più alto, una superficie esplicita di reasoning e una storia benchmark ufficiale molto più ricca. Rispetto a GPT-5.3-Codex, GPT-5.4 è più ampia e più bilanciata, ma GPT-5.3-Codex vince ancora sul numero ufficiale di Terminal-Bench 2.0: 77.3% contro 75.1%. [1][5][6]

GPT-5.4 vs GPT-5.2

Questo è il confronto ufficiale più diretto ed è anche il più forte. GPT-5.4 alza GDPval da 70.9% a 83.0%, SWE-Bench Pro da 55.6% a 57.7%, OSWorld-Verified da 47.3% a 75.0%, Toolathlon da 46.3% a 54.6% e BrowseComp da 65.8% a 82.7%. Il trade-off è il prezzo: GPT-5.4 costa di più per token rispetto a GPT-5.2. [1][2][7]

GPT-5.4 vs GPT-5.1

Il confronto con GPT-5.1 è in parte generazionale e in parte legato al tooling. GPT-5.1 introdusse adaptive reasoning behavior per gli sviluppatori e nuovi tool come apply_patch e shell, mentre gli esempi partner di OpenAI evidenziavano miglior diff editing e maggiore reattività. GPT-5.4 va oltre e diventa uno stack professionale più ampio con 1.05M context, xhigh reasoning, native computer use, tool search e benchmark cross-domain più forti. Il prezzo però sale in modo netto: da $1.25/$10 a $2.50/$15. [2][8][10]

Scala delle versioni da GPT-5.1 a GPT-5.4 costruita solo con release page e model docs ufficiali di OpenAI. [1][2][5][6][7][8][10]

Dove GPT-5.4 è davvero la più forte e dove i modelli precedenti hanno ancora senso

L'upgrade è reale, ma restano scenari in cui una linea modello precedente è ancora la scelta più razionale.

Dove GPT-5.4 vince chiaramente

Se il tuo lavoro combina reasoning, coding, web research, documenti, fogli di calcolo, presentazioni e tool-heavy agent loops, GPT-5.4 è la raccomandazione ufficiale più pulita. È il primo rilascio GPT-5 in cui documentazione OpenAI e benchmark indicano quasi senza ambiguità la stessa direzione. [1][2]

Dove GPT-5.3-Codex conta ancora

Se il tuo workflow è quasi interamente terminal-first e coding-agent driven, GPT-5.3-Codex resta strategicamente rilevante. Il suo risultato ufficiale su Terminal-Bench 2.0 è ancora superiore a GPT-5.4 e OpenAI lo descrive ancora come most capable agentic coding model to date. [1][5][9]

Dove GPT-5.2 ha ancora senso

GPT-5.2 resta una buona opzione value se vuoi un frontier model forte ma non ti servono il context più grande, il salto nel computer use o l'efficienza di tool search di GPT-5.4. Costa meno, supporta ancora xhigh reasoning e resta solida su documenti lunghi e analisi professionale. [1][7]

Dove GPT-5.1 ha ancora senso

GPT-5.1 resta difendibile per team che vogliono costo più basso e una solida base coding-and-agents. La model page API la posiziona ancora come il miglior modello per coding e agentic tasks con reasoning configurabile, e la sua tool story era già forte per gli sviluppatori. [8][10]

FAQ

GPT-5.4 è più un upgrade per il coding o un upgrade generale per il lavoro professionale?

Entrambe le cose, ed è proprio questo il punto del rilascio. GPT-5.4 eredita un livello frontier di coding da GPT-5.3-Codex, ma OpenAI la posiziona come modello professionale più ampio per documenti, fogli di calcolo, presentazioni, web research, tool use e computer use.

GPT-5.4 sostituisce completamente GPT-5.3-Codex?

Non del tutto. GPT-5.4 è un modello mainline molto più completo, ma GPT-5.3-Codex ha ancora un risultato ufficiale Terminal-Bench 2.0 più forte e resta molto rilevante per workflow coding terminal-first.

GPT-5.4 vale il prezzo API più alto rispetto a GPT-5.2?

Se il tuo workload beneficia davvero di context più ampio, computer use più forte, tool search ed error rate più basso, spesso sì. Se invece fai soprattutto analisi standard o coding senza queste esigenze, GPT-5.2 può restare una forte opzione value.

Perché il confronto con GPT-5.3 si basa in parte su GPT-5.3-Codex e non solo su GPT-5.3 Chat?

Perché la superficie benchmark ufficiale più profonda di OpenAI per la generazione 5.3 è pubblicata su GPT-5.3-Codex. GPT-5.3 Chat è documentata soprattutto come snapshot model per ChatGPT, mentre GPT-5.3-Codex ha una copertura benchmark pubblica molto più forte.

Fonti

Solo fonti ufficiali OpenAI, verificate il 6 marzo 2026.

• 1. Introducing GPT-5.4
• 2. GPT-5.4 model page
• 3. OpenAI API pricing
• 4. GPT-5.4 Thinking system card
• 5. Introducing GPT-5.3-Codex
• 6. GPT-5.3 Chat model page
• 7. Introducing GPT-5.2
• 8. GPT-5.1 model page
• 9. GPT-5.3-Codex model page
• 10. Introducing GPT-5.1 for developers
• 11. GPT-5.2 model page