italian 16 Jan 2025 6 min IT

Evoluzione degli LLM: una breve panoramica del mercato

La Guerra dei Modelli di Linguaggio 2025: Dalla Parità Tecnica alla Battaglia degli Ecosistemi

Meno di 2 punti percentuali separano i migliori LLM sui benchmark principali—la guerra tecnologica è finita in pareggio. La vera battaglia 2025 si gioca su ecosistemi, distribuzione e costi: DeepSeek ha dimostrato che si può competere con $5.6M vs $78-191M di GPT-4. ChatGPT domina il brand (76% awareness) nonostante Claude vinca il 65% dei benchmark tecnici. Per le aziende, la strategia vincente non è scegliere "il modello migliore" ma orchestrare modelli complementari per use case diversi.

Lo sviluppo dei Large Language Models ha raggiunto nel 2025 un punto di svolta: la competizione non si gioca più sulle capacità fondamentali dei modelli — ormai sostanzialmente convergenti sui benchmark principali — ma sull'ecosistema, l'integrazione e la distribuzione. Chi ha il modello "migliore" cambia ogni tre mesi. Chi possiede il canale di distribuzione, no.

Il pareggio tecnico

Lo Stanford AI Index Report 2025 quantifica la convergenza: sul leaderboard Chatbot Arena, il divario tra il primo e il decimo modello si è ridotto dall'11,9% al 5,4% in un anno. Sui benchmark di conoscenza generale come MMLU, i modelli di punta di OpenAI, Anthropic, Meta e DeepSeek si collocano tutti in una fascia di un paio di punti percentuali.

Le differenze residue emergono solo su compiti specifici. Sul ragionamento scientifico complesso (GPQA Diamond), Claude 3.5 Sonnet ha registrato 65,0% contro il 53,6% di GPT-4o — un vantaggio reale, ma su un singolo asse. GPT-4o resta più veloce in latenza, Gemini più forte nell'elaborazione multimodale nativa. Nessun modello domina su tutti i fronti, ed è esattamente questo il punto: quando la qualità converge, la partita si sposta altrove.

La rivoluzione DeepSeek

Dicembre 2024 e gennaio 2025 hanno cambiato le premesse economiche del settore. DeepSeek-V3 ha dimostrato che un modello competitivo può essere addestrato con circa 5,6 milioni di dollari di compute (2,79 milioni di ore-GPU H800), contro stime di 78 milioni per GPT-4 e 191 milioni per Gemini Ultra (AI Index 2024). Il numero va letto con onestà — copre solo il training run finale, non ricerca, esperimenti falliti e personale — ma anche con quel caveat l'ordine di grandezza è un altro.

Le specifiche: 671 miliardi di parametri totali, di cui solo 37 attivi per query grazie all'architettura Mixture-of-Experts, combinata con Multi-head Latent Attention. Quando a gennaio è arrivato DeepSeek-R1, il modello di ragionamento open-weights, Marc Andreessen lo ha definito un dono profondo al mondo. Il mercato ha reagito in modo meno poetico: il 27 gennaio 2025 Nvidia ha perso il 17% in una seduta — circa 590 miliardi di dollari di capitalizzazione, la più grande distruzione di valore giornaliera nella storia dei mercati — mentre gli investitori rivalutavano le barriere all'ingresso del settore.

Percezione pubblica contro realtà tecnica

I benchmark dicono una cosa, il mercato consumer un'altra. Secondo i dati di traffico Similarweb, ChatGPT cattura la grande maggioranza delle visite alle piattaforme di AI conversazionale — nell'ordine dell'80% — con Gemini sotto il 10% e Claude nelle singole cifre basse. La superiorità tecnica su benchmark specifici non si traduce in quota di mercato consumer: il brand, arrivato per primo, domina.

La risposta di Google a questo squilibrio è la distribuzione: Gemini integrato nativamente in Search, Gmail, Docs e Drive raggiunge istantaneamente i miliardi di utenti di Google Workspace, senza un euro di costo di acquisizione. È la strategia dell'ecosistema contro il prodotto standalone — e non richiede di avere il modello migliore, solo un modello abbastanza buono nel posto giusto.

Agenti: la frontiera successiva

Il 2025 è l'anno in cui i laboratori hanno smesso di vendere risposte e hanno iniziato a vendere azioni.

Anthropic ha aperto la strada con Computer Use (ottobre 2024): il modello controlla direttamente mouse, tastiera e browser. I limiti sono dichiarati nei numeri — sul benchmark OSWorld il sistema iniziale completava il 14,9% dei task, contro circa il 72% di un operatore umano. Pochi mesi dopo OpenAI ha risposto con Operator (gennaio 2025), e sia Google che OpenAI hanno lanciato strumenti di Deep Research che producono report autonomi multi-fonte in minuti anziché secondi.

Sul piano infrastrutturale, la mossa più importante è il Model Context Protocol di Anthropic (novembre 2024): uno standard aperto per collegare agenti a strumenti e basi dati. Il segnale definitivo è arrivato quando OpenAI stessa lo ha adottato a marzo 2025 — i concorrenti che convergono sullo standard di un rivale è la prova che la partita degli agenti si gioca sull'interoperabilità, non sul modello. Gartner prevede che entro il 2028 il 33% del software enterprise incorporerà AI agentica, contro meno dell'1% nel 2024.

Filosofie di sicurezza divergenti

Sotto la convergenza tecnica restano filosofie diverse, leggibili nei documenti pubblici più che nei proclami. OpenAI ha formalizzato un Preparedness Framework con red-teaming continuo. Anthropic ha costruito l'identità su Constitutional AI — modelli addestrati su principi espliciti — e su una Responsible Scaling Policy che vincola il rilascio alle capacità. Google, dopo l'incidente del generatore di immagini di Gemini (febbraio 2024), ha adottato la linea della cautela massima, coerente con un focus enterprise che non tollera scandali. Meta sta all'estremo opposto: pesi aperti, filtri minimi, responsabilità spostata su chi implementa.

Non esiste un vincitore di questa tassonomia. Esistono clienti diversi: chi compra riduzione del rischio paga il premio di Anthropic; chi compra controllo totale sceglie i pesi aperti di Meta.

Specializzazione verticale: dove si difendono i margini

Se il modello generico è una commodity, il valore migra verso la verticalizzazione. Nel legale, Harvey — costruito su modelli OpenAI e adottato da una quota crescente degli studi AmLaw 100 — ha raggiunto una valutazione di 3 miliardi di dollari a febbraio 2025. Nella finanza, BloombergGPT è stato addestrato su 363 miliardi di token di dati finanziari proprietari che nessun concorrente può replicare. Nella sanità, Med-PaLM 2 di Google ha raggiunto l'86,5% su MedQA, livello da esperto umano.

Il pattern è lo stesso ovunque: il moat non è il modello, sono i dati proprietari, la distribuzione di settore e l'integrazione nei flussi di lavoro esistenti.

Open source: la strategia della commoditizzazione

Meta gioca una partita diversa. Llama 3.1 a 405 miliardi di parametri, completamente open-weights, compete con GPT-4o su molti benchmark — e la famiglia Llama aveva superato i 650 milioni di download cumulativi a dicembre 2024. La logica è controintuitiva solo in apparenza: Meta non vende API, vende pubblicità. Commoditizzare il layer infrastrutturale dell'AI impedisce che un concorrente lo controlli, e protegge il business core. DeepSeek, con motivazioni diverse, produce lo stesso effetto: ogni rilascio open-weights competitivo abbassa il prezzo che i laboratori chiusi possono chiedere.

I numeri lo confermano: secondo l'AI Index 2025, il costo di inferenza per prestazioni di livello GPT-3.5 è crollato di circa 280 volte tra fine 2022 e fine 2024. Il listino racconta la guerra dei prezzi in corso (input, per milione di token): GPT-4o a $2,50, Claude Sonnet a $3,00, Gemini 2.0 Flash a $0,10, DeepSeek-V3 a $0,27. Per carichi ad alto volume dove "abbastanza buono" basta, il differenziale è di un ordine di grandezza.

Quale modello scegliere: un framework

Enterprise safety-critical (sanità, legale, finanza): il premio di prezzo di Claude si giustifica come mitigazione del rischio, non come qualità marginale.

Alto volume, sensibile ai costi (customer service, classificazione, moderazione): Gemini Flash o DeepSeek. La performance è "good enough" e il costo è il differenziatore.

Lock-in di ecosistema: chi vive in Google Workspace usa Gemini, chi vive in Microsoft 365 usa GPT. L'integrazione nativa batte la superiorità marginale del modello.

Controllo e personalizzazione (data residency, audit, fine-tuning su dati proprietari): Llama o DeepSeek self-hosted. A volumi alti, l'economia del self-hosting funziona.

Conclusione: dalla technology war alla platform war

La competizione 2025 sui LLM non è più "quale modello ragiona meglio" ma "quale ecosistema cattura più valore". OpenAI domina il brand consumer, Google sfrutta una distribuzione da miliardi di utenti, Anthropic vince l'enterprise attento al rischio, Meta commoditizza l'infrastruttura.

Previsione 2026-2027: ulteriore convergenza delle performance core; differenziazione su velocità, costo, integrazioni e specializzazione verticale; agenti multi-step mainstream; open source che chiude il gap qualitativo mantenendo il vantaggio di costo. Il vincitore finale probabilmente non sarà un singolo player ma ecosistemi complementari per cluster di casi d'uso diversi — come iOS e Android, non "winner takes all" ma "winner takes segment".

Per le aziende, la strategia multi-modello diventa lo standard: un modello generico per i task comuni, ragionamento di fascia alta dove l'errore costa, modelli economici per il volume, open-weights dove servono controllo e residenza dei dati.

Il 2025 non è l'anno del modello migliore. È l'anno dell'orchestrazione intelligente tra modelli complementari.

Fonti: Stanford AI Index Report 2025 · DeepSeek-V3 Technical Report (arXiv) · Anthropic — Computer Use announcement, ottobre 2024 · OpenAI — o1 system card e Operator announcement · Epoch AI — Trends in Machine Learning · Gartner — previsioni agentic AI 2024 · Similarweb · dati di mercato pubblici (Nvidia, 27 gennaio 2025)

Evoluzione degli LLM: una breve panoramica del mercato

Il pareggio tecnico

La rivoluzione DeepSeek

Percezione pubblica contro realtà tecnica

Agenti: la frontiera successiva

Filosofie di sicurezza divergenti

Specializzazione verticale: dove si difendono i margini

Open source: la strategia della commoditizzazione

Quale modello scegliere: un framework

Conclusione: dalla technology war alla platform war

Read next

Deepfake: la nuova emergenza che sta riscrivendo le regole del business

Deepfakes: The New Emergency Rewriting the Rules of Business

L'Algoritmo non è cambiato

Comments ()

Il pareggio tecnico

La rivoluzione DeepSeek

Percezione pubblica contro realtà tecnica

Agenti: la frontiera successiva

Filosofie di sicurezza divergenti

Specializzazione verticale: dove si difendono i margini

Open source: la strategia della commoditizzazione

Quale modello scegliere: un framework

Conclusione: dalla technology war alla platform war

Read next

Comments ( )

Comments ()