Stato: gennaio 2026. Panoramica delle capacità degli attuali sistemi di IA.
Al centro dell'attuale rivoluzione dell'IA ci sono i grandi modelli linguistici (Large Language Models, LLM). Il principio: una rete neurale con centinaia di miliardi di parametri viene addestrata su enormi quantità di testo -- libri, siti web, lavori scientifici, codice. Impara la struttura del linguaggio stesso, senza un obiettivo specifico [1].

L'architettura decisiva si chiama Transformer, presentata nel 2017 nell'articolo "Attention Is All You Need" di Vaswani e altri sette ricercatori di Google [2]. Il Transformer considera tutte le parole di un testo contemporaneamente e calcola per ciascuna parola quanto è fortemente collegata a ogni altra (Self-Attention). Questo lo rende più preciso e massivamente parallelizzabile -- perfetto per l'hardware GPU moderno.
La cosa più sorprendente dei grandi modelli linguistici è che sviluppano capacità che nessuno ha esplicitamente programmato. A partire da una certa dimensione del modello compaiono improvvisamente nuove competenze -- le cosiddette capacità emergenti [3]:
Queste capacità non sono il risultato di una programmazione mirata. Emergono come effetto collaterale della pura dimensione e quantità di dati -- un fenomeno che ha sorpreso la stessa ricerca sull'IA [3].
Dal 2023 i principali modelli di IA elaborano non solo testo, ma diverse modalità contemporaneamente:
| Modalità | Esempio |
|---|---|
| Testo | Saggi, contratti, codice, poesie |
| Immagini | Analizzare la foto di un frigorifero, suggerire una ricetta |
| Audio | Riconoscimento vocale, traduzione simultanea |
| Video | Descrivere scene, riassumere contenuti |
GPT-4 è stato il primo modello multimodale ampiamente diffuso (marzo 2023). Google Gemini e Anthropic Claude hanno seguito con proprie capacità multimodali [4] [5] [6].
I sistemi di IA superano ormai esami che sono impegnativi per gli esseri umani:
| Esame | Risultato GPT-4 | Media umana |
|---|---|---|
| Esame di avvocatura USA (Bar Exam) | Top 10% | 50° percentile |
| Licenza medica (USMLE) | oltre il 90% in tutte e 3 le parti | Soglia di superamento a ~60% |
| Olimpiade di biologia | superato | -- |
| SAT Matematica | 700/800 | 528/800 |
GPT-3.5 si era classificato nell'esame di avvocatura tra il peggior 10%. GPT-4, solo sei mesi dopo, si è classificato tra il miglior 10%. Il tasso di miglioramento è senza precedenti [4].
All'inizio del 2026 Claude di Anthropic identifica errori nel codice di programmazione complesso più velocemente degli sviluppatori esperti -- e fornisce la soluzione [5]. Non occasionalmente, ma sistematicamente:
Il ruolo del programmatore si sposta: non più colui che scrive il codice, ma colui che comprende il problema e verifica il risultato.
ChatGPT ha raggiunto dopo la sua pubblicazione il 30 novembre 2022 una velocità di diffusione senza precedenti [7]:
| Servizio | Tempo fino a 1 mio. di utenti |
|---|---|
| Netflix | 3,5 anni |
| 10 mesi | |
| Spotify | 5 mesi |
| 2,5 mesi | |
| ChatGPT | 5 giorni |
Entro due mesi 100 milioni di persone utilizzavano ChatGPT. La grande banca svizzera UBS l'ha definita la più rapida diffusione di un'applicazione per consumatori nella storia di Internet [7].
Nonostante tutti i progressi, gli attuali sistemi di IA hanno limiti chiari:
Il confine tra ciò che l'IA può e non può fare si sposta tuttavia più velocemente di quanto qualsiasi previsione abbia previsto.
[1] OpenAI: GPT-4 Technical Report. arxiv.org, marzo 2023.
[2] Vaswani, Ashish et al.: Attention Is All You Need. NeurIPS, 2017.
[3] Wei, Jason et al.: Emergent Abilities of Large Language Models. Transactions on Machine Learning Research, 2022.
[4] OpenAI: GPT-4 Technical Report. arxiv.org, marzo 2023.
[5] Anthropic: Claude 3 Technical Report. anthropic.com, marzo 2024.
[6] Google DeepMind: Gemini -- A Family of Highly Capable Multimodal Models. Dicembre 2023.
[7] UBS Evidence Lab: ChatGPT -- The Fastest Growing Consumer Application in History. Febbraio 2023.