Architettura: dal transformer ai modelli moderni
L'architettura transformer, da cui derivano tutti i LLM moderni, si basa su due elementi fondamentali. Il primo è il meccanismo di auto-attention, che consente al modello di calcolare, per ogni posizione del testo, una combinazione pesata delle rappresentazioni delle altre posizioni. Questa operazione è intrinsecamente parallelizzabile, motivo per cui i transformer hanno soppiantato le architetture ricorrenti (RNN, LSTM) che dominavano il NLP fino al 2017. Il secondo elemento è l'empilamento di decine di layer identici di transformer (tipicamente tra 32 e 96 nei modelli di punta), ciascuno dei quali affina la rappresentazione.
I LLM contemporanei si articolano in diverse varianti architetturali:
- modelli dense, in cui tutti i parametri sono attivati a ogni inferenza (GPT-4 storico, Claude, Llama 3.1 405B);
- modelli Mixture of Experts (MoE), in cui solo alcuni sottoreti esperti vengono attivati in base al token elaborato, riducendo così il costo di inferenza a parità di parametri (Mixtral, DeepSeek-V3, GPT-4o presunto);
- modelli multimodali nativi, che ingeriscono e producono testo, immagini, audio e video in uno spazio di rappresentazione unificato (Gemini, GPT-4o, Pixtral Large, Claude 3.5 Sonnet);
- modelli di ragionamento (reasoning models), che producono una catena di pensiero esplicita prima di rispondere - DeepSeek-R1, OpenAI o1/o3, Tencent Hunyuan-T1, Gemini Thinking - a fronte di una latenza maggiore ma con una qualità superiore su compiti di matematica, logica e programmazione.
I principali attori nel 2026
OpenAI resta il leader percepito del mercato con ChatGPT, GPT-4o, GPT-4o mini e la famiglia di modelli di ragionamento o1/o3. L'azienda, valutata diverse centinaia di miliardi di dollari nel 2026, è finanziata principalmente da Microsoft e SoftBank. La sua strategia commerciale combina API (pagamento a token), prodotto consumer (ChatGPT Plus a 20 $/mese) e offerta enterprise (ChatGPT Enterprise, Azure OpenAI Service). OpenAI ha ampliato il proprio raggio d'azione con OAI-SearchBot, il suo crawler di ricerca, e SearchGPT.
Anthropic, fondata nel 2021 da ex membri di OpenAI tra cui Dario e Daniela Amodei, ha fatto della sicurezza il proprio elemento distintivo. La famiglia Claude (Haiku, Sonnet, Opus) è particolarmente apprezzata per la scrittura, il coding e il ragionamento su contesti estesi. Anthropic è finanziata da Amazon, Google e SoftBank. Nel maggio 2026, Anthropic ha confermato la locazione di una parte della capacità di Colossus 1 di xAI per circa 1,25 miliardi di dollari al mese, a testimonianza della concentrazione delle risorse di calcolo.
Google DeepMind dal 2023 consolida le proprie attività IA sotto il marchio Gemini. La famiglia Gemini (Nano, Flash, Pro, Ultra, poi Gemini 2.0 Flash nel dicembre 2024) è integrata nel motore di ricerca (AI Overviews) e nella suite Workspace. Google beneficia di un vantaggio strutturale grazie al controllo sui dati di training (Web, YouTube, Books) e sulla propria infrastruttura TPU.
Meta ha puntato sul weights open con la famiglia Llama (Llama 1 a febbraio 2023, Llama 2 a luglio 2023, Llama 3 ad aprile 2024, Llama 3.1 405B a luglio 2024). Questa strategia ha democratizzato l'accesso ai foundation models e alimentato un ecosistema di modelli derivati (Vicuna, Tulu, fine-tuning settoriali). Meta, tuttavia, ha rifiutato nel luglio 2025 di firmare il codice di buone pratiche GPAI europeo e ha temporaneamente sospeso il lancio di Llama 3 multimodale in Europa.
Mistral AI, fondata a Parigi nell'aprile 2023 da Arthur Mensch, Guillaume Lample e Timothée Lacroix, si è affermata come il campione europeo. La sua strategia ibrida combina modelli open (Mistral 7B, Mixtral 8x7B, Codestral Mamba, Mathstral, Ministral 3B/8B) e modelli proprietari (Mistral Large 2, Pixtral Large). Mistral ha firmato il codice di buone pratiche GPAI e stretto partnership strategiche con NVIDIA (Mistral NeMo 12B), Dassault Systèmes, Capgemini e SAP.
In Cina, Alibaba (famiglia Qwen), Baidu (ERNIE 4.5, ERNIE X1), Tencent (Hunyuan-T1) e soprattutto DeepSeek hanno raggiunto e poi sfidato i laboratori americani. DeepSeek-V3 ha stupito la comunità nel gennaio 2025 per la sua qualità a un costo di training circa 30 volte inferiore rispetto ai concorrenti occidentali. DeepSeek-R1, lanciato subito dopo e aggiornato nel giugno 2025 (R1-0528), ha causato un temporaneo crollo in borsa di NVIDIA, mettendo in discussione il primato delle infrastrutture sovradimensionate.
Altri attori ricoprono ruoli specializzati: xAI (Grok, infrastruttura Colossus), Cohere (modelli enterprise multilingue, Aya 23), AI2 (Tülu 3 405B, modelli completamente open), Aleph Alpha (Pharia-1-LLM tedesco), Black Forest Labs (FLUX-1 per il text-to-image), LightOn (Paradigm per l'azienda), Hugging Face (hub di modelli, SmolLM2), OpenEuroLLM (consorzio europeo open).
Modelli di riferimento nel 2026
Il panorama dei LLM di punta nel 2026 conta circa una dozzina di famiglie, ciascuna con le proprie dimensioni e varianti:
- GPT-4o / GPT-4o mini (OpenAI) - multimodale nativo, latenza ridotta, finestra di contesto da 128k token. GPT-4o mini è diventato il riferimento economico per i deployment ad alto volume.
- o1 / o3 (OpenAI) - modelli di ragionamento con chain-of-thought interna, potentissimi in matematica competitiva (AIME, IMO) e programmazione (Codeforces).
- Claude 3.5 Sonnet / Claude 3 Opus (Anthropic) - finestra 200k, eccellenti per la scrittura lunga e la lettura di documenti.
- Gemini 2.0 Flash / Gemini Ultra (Google DeepMind) - multimodale nativo, integrazione con l'ecosistema Google.
- Llama 3.1 405B / Llama 3.3 (Meta) - leader open source dense.
- Mistral Large 2 / Pixtral Large (Mistral AI) - europei, open weights per alcune versioni.
- DeepSeek-V3 / DeepSeek-R1-0528 (DeepSeek) - open source cinese, ragionamento, costo di training spettacolariemente basso.
- Qwen2.5 (Alibaba) - leader open source multilingue cinese, finestra da 1M token.
- NOVA (Amazon) - famiglia foundation proprietaria annunciata a dicembre 2024.
- Phi-3 / Phi-3.5 (Microsoft) - piccoli modelli efficienti per l'embedded.
- Hunyuan-T1 (Tencent) - modello di ragionamento cinese al livello dello stato dell'arte.
- Grok 3 (xAI) - accesso real-time a X, infrastruttura massiva.
Training e costi
Il training di un LLM di punta richiede risorse considerevoli. Per GPT-4, le stime pubbliche parlano di un budget intorno ai 100 milioni di dollari e diverse decine di migliaia di GPU H100 per tre mesi. Llama 3.1 405B ha richiesto 16.000 H100 e circa 30 milioni di ore GPU. Mistral Large 2 e Mixtral, all'estremo opposto dello spettro europeo, sono stati addestrati con budget significativamente più contenuti, dimostrando che è possibile raggiungere prestazioni competitive con un lavoro accurato sui dati.
Le scaling laws formalizzate da OpenAI e poi affinate da DeepMind (Chinchilla, 2022) hanno a lungo dettato la dinamica: la qualità di un modello cresce in modo prevedibile con il prodotto tra il numero di parametri e la quantità di dati di training, a condizione di bilanciare i due fattori. Questa equazione è stata messa in discussione a fine 2024: l'inflazione dei budget non si traduce più in guadagni spettacolari sui benchmark aperti, e l'attenzione si è spostata su altre dimensioni - qualità dei dati, ragionamento post-training, agenti, multimodalità.
L'infrastruttura di calcolo è diventata una questione geopolitica centrale. NVIDIA, grazie alla quasi esclusiva sulle GPU H100/H200/B200, cattura la maggior parte del valore. I controlli all'export statunitensi limitano le vendite verso la Cina, spingendo DeepSeek e Alibaba a ottimizzare i propri training su chip depotenziati (H800). xAI ha costruito nel 2024 il data center Colossus a Memphis, integrando 100.000 H100 e poi 200.000 H100/H200 in meno di un anno - un record industriale.
Capacità e limiti
I LLM moderni padroneggiano un ampio spettro di compiti: scrittura, riassunto, traduzione, generazione di codice, dialogo, estrazione di informazioni, classificazione, trattamento di documenti strutturati e non strutturati. Sono ormai componenti standard in molte applicazioni - motori di ricerca conversazionali, assistenti di coding (Copilot, Cursor), agenti legali e medici, sistemi di supporto al cliente, strumenti di produttività Office e Workspace.
I loro limiti sono altrettanto ben documentati. I LLM allucinano - producono contenuti plausibili ma fattualmente errati - soprattutto su temi di nicchia, numeri precisi e riferimenti bibliografici. Mancano di robustezza contro attacchi avversariali (prompt injection, jailbreak), come dimostrato dallo studio dell'EPFL nel dicembre 2024 sui limiti dei LLM contro attacchi adattivi. Possono essere manipolati per influenzare le opinioni degli utenti (studio EPFL di aprile 2024). Consumano energia e acqua in modo significativo - tema sempre più monitorato da regolatori e azionisti. I loro bias riflettono quelli dei corpus di training, prevalentemente anglofoni e nord-occidentali.
Open source vs proprietario
Il divario tra LLM open e closed struttura il dibattito dal 2023. I sostenitori dei modelli open - Meta, Mistral, Hugging Face, AI2, DeepSeek, La Quadrature du Net - invocano la sovranità tecnologica, la possibilità di audit indipendente, la diffusione accademica e la resilienza industriale. I loro oppositori - Anthropic, OpenAI su alcuni aspetti - sottolineano i rischi di proliferazione di usi malevoli (bioterrorismo, disinformazione su larga scala, frodi) e l'impossibilità di rimuovere un modello una volta pubblicato.
L'AI Act affronta parzialmente la questione concedendo esenzioni parziali ai modelli i cui parametri, architettura e informazioni d'uso sono pubblicati. Queste esenzioni non si applicano ai modelli a rischio sistemico (10²⁵ FLOPS di training). Nel 2026, l'ecosistema open source è dominato da Llama, Mistral, DeepSeek e Qwen, che coprono la maggior parte dei casi d'uso enterprise e accademici senza dipendere dall'API di un singolo fornitore.
Modelli specializzati e verticali
Oltre ai modelli generalisti, l'ecosistema si sta diversificando in modelli verticali. Nel settore medico: H-optimus-0 di Bioptimus per la diagnosi assistita, Pharia-1-LLM di Aleph Alpha in tedesco, fine-tuning specifici per la radiologia e l'oncologia. Nel legale: assistenti Lefebvre Dalloz-Barreau de Paris, applicazioni Talan-Mutuelle Générale. Nel coding: Codestral (Mistral), Code Llama (Meta), DeepSeek-Coder. Nella finanza: modelli interni di BNP Paribas, Crédit Agricole, JPMorgan. Il movimento dei piccoli modelli efficienti (SLM, Small Language Models) - Phi-3, Mistral Ministral, SmolLM2, Gemma 2 2B - punta ai deployment embedded (smartphone, auto, IoT) con una qualità accettabile e costi di inferenza molto bassi.
Il 2025 ha visto emergere gli agenti IA come nuovo paradigma di utilizzo dei LLM. Anziché rispondere a una singola richiesta, l'agente concatena azioni (chiamate di strumenti, consultazione Web, scrittura di file, esecuzione di codice) per risolvere un compito complesso. Gemini 2.0 Flash è stato presentato a dicembre 2024 come il modello che apre la strada a questa nuova famiglia di prodotti. AI Decision Matrix di AI Builders fornisce un quadro di valutazione comparativa per i responsabili IT alle prese con la moltiplicazione delle soluzioni.
Temi chiave 2026 e oltre
Diverse dinamiche da monitorare nei prossimi 18 mesi:
- la conformità GPAI rispetto all'AI Act, ora applicabile da agosto 2025;
- l'economia dell'inferenza, ormai dominante in volume rispetto all'economia del training, con un focus su architetture MoE e quantizzazione (BitNet, vLLM, llm-optimizer);
- l'interazione con il diritto d'autore, soprattutto dopo l'abbandono della legge Darcos in Francia e la giurisprudenza in corso su Meta-Llama, NYT-OpenAI, Getty-Stable Diffusion;
- la corsa ai modelli di ragionamento, che vede confrontarsi OpenAI o3, DeepSeek-R1, Gemini Thinking e Hunyuan-T1;
- la convergenza multimodale, con modelli nativi in grado di gestire testo, immagini, video e audio in uno spazio unificato;
- l'emergere degli agenti e le relative questioni di affidabilità (tasso di successo su task lunghi), sicurezza (controllo delle azioni eseguite) e modello di business;
- la sovranità europea, rappresentata da Mistral, OpenEuroLLM, LightOn, Aleph Alpha, e dallo sforzo di disaccoppiare il calcolo di inferenza con OVHcloud e le nuove GPU NVIDIA Tensor Core.
L'evoluzione dei LLM non si riduce più a una corsa ai parametri. I vincitori combineranno qualità dei dati, post-training tramite reinforcement learning, infrastruttura di inferenza sotto controllo, strategia di licensing coerente con il proprio mercato di riferimento e piena conformità normativa. È ormai un tema industriale, geopolitico e giuridico tanto quanto scientifico.