Dall’APE100 a DeepSeek: storia di come le idee frugali sconfiggono i giganti del calcolo.

I cavalieri del silicio e la maledizione di Golia
Atto I: L’Impero di Golia (Cray)
La storia del calcolo digitale è una guerra ciclica tra il Gigantismo e la Frugalità.
A metà degli anni Ottanta, il mondo del supercalcolo ha un unico, indiscusso sovrano: Seymour Cray. I suoi supercomputer sono cattedrali di silicio, macchine vettoriali monolitiche che costano decine di milioni di dollari. Se sei uno scienziato che vuole studiare l’infinitamente piccolo, o un regista che vuole plasmare la luce in tre dimensioni, devi inginocchiarti davanti a Golia e pagare il suo tributo.
Ma il gigantismo presenta un problema: l’accesso è riservato a pochi.

Atto II: La rivolta dei due mondi (Roma-Hollywood)
Così, a cavallo del 1991, due gruppi di “ribelli” decidono di aggirare Golia, muovendosi su sentieri paralleli ma distinti. Sono in parti diverse del globo, parlano lingue diverse, ma condividono la stessa ossessione: i limiti del budget.
(clip tratta dal video La nascita del computer parallelo APE100 di Cabibbo, Parisi et al, raccontato da Gaetano Salina)
A Roma, INFN: Nicola Cabibbo e Giorgio Parisi capiscono che l’Italia non avrà mai i soldi per comprare un centinaio di Cray per studiare la cromodinamica quantistica. Riuniscono i fisici e, con un approccio artigianale, creano una famiglia di macchine parallele: prima APE e poi APE100, che diviene, all’epoca, il computer più veloce del mondo. Invece di un unico, immenso e costoso processore, collegano in una griglia tridimensionale migliaia di piccoli chip economici, programmandoli per fare la stessa identica cosa nello stesso istante. È il parallelismo cooperativo: una sincronia assoluta dove i processori lavorano all’unisono, al ritmo di un unico clock, eseguendo la medesima operazione sui diversi dati che ciascuno specifico processore ha caricato (Single Instruction Multiple Data), come un unico sciame coordinato. Nel 1991, l’insetto italiano è la macchina più veloce del pianeta, a una frazione del costo dei rivali americani.

California: nel 1991, per la scena di danza in un salone tridimensionale “La bella e la bestia“, Disney usa per la prima volta RenderMan, il software di rendering sviluppato da Pixar: è il primo ambiente CGI tridimensionale nella storia dell’animazione, reso possibile distribuendo il calcolo su macchine separate. Quattro anni dopo, per produrre Toy Story, Pixar porta il principio alle estreme conseguenze. Comprare un Cray per renderizzare fotogrammi è follia economica, così gli ingegneri intuiscono una strada più anarchica: il parallelismo egoista (embarrassingly parallel). Poiché ogni fotogramma è strutturalmente indipendente dagli altri, non serve coordinazione: i processori non si parlano mai. Comprano 117 workstation Sun commerciali e distribuiscono il lavoro in modo atomizzato (il computer A calcola il fotogramma 1, il computer B il fotogramma 2), ignorando reciprocamente l’esistenza altrui.
È la nascita delle Render Farm.
Due risposte diverse allo stesso problema: l’APE100 standardizza lo sciame coordinato; Hollywood standardizza la democrazia dei computer commerciali.

Atto III: Il grande sorpasso commerciale (la massa)
Poi succede che la Legge di Moore e il crollo dei costi delle reti fanno il resto. Le prestazioni dei chip di largo consumo accelerano a ritmi esponenziali, mentre il mercato di massa abbatte i costi delle reti ad alta velocità. Una combinazione che innesca un’economia di scala devastante: unire centinaia di computer commerciali diventa improvvisamente più efficiente e infinitamente meno costoso rispetto al mantenimento di supercomputer custom. Nel giro di un decennio, la valanga commerciale travolge l’intera industria: i colossi monolitici della Cray si trasformano in costosi reperti archeologici e persino l’artigianato eroico dell’APE deve cedere il passo.
Il mercato di massa ha vinto, imponendo il modello dei cluster standardizzati come unica architettura globale.

Atto IV: Il ritorno di Golia (i templi del calcolo)
Il tempo passa, la tecnologia dimentica le sue lezioni. Arrivano gli anni Venti del duemila e l’informatica si ritrova esattamente nello stesso punto di partenza. Il nuovo Golia si chiama Compute Multi-Cluster, i suoi templi sono i datacenter iperscalabili e il suo metallo prezioso sono le GPU.
Per addestrare i grandi modelli linguistici (LLM), l’industria ha resuscitato il gigantismo. Le startup e i colossi della Silicon Valley acquistano decine di migliaia di chip in cluster mastodontici, accumulando una concentrazione di valore mai vista nella storia del capitalismo. Oggi le prime dieci imprese americane, tutte convertite all’intelligenza artificiale, da sole superano il 40% della capitalizzazione di mercato: un dato che polverizza persino il picco del 27% raggiunto nel 2000, all’apice della bolla delle Dot-Com.
La storia si ripete: il calcolo è diventato di nuovo un’infrastruttura d’élite e un monopolio per pochi eletti. Chi non ha i miliardi per i datacenter, l’energia e i dati di frontiera sembra destinato a sparire, esponendo chi è rimasto indietro al rischio di subire i contraccolpi di una bolla finanziaria senza nemmeno beneficiare della proprietà delle macchine.
Ma i ribelli sono già tornati.

Atto V: Frugal AI (i nuovi David)
Come l’APE100 e le Render Farm dimostrarono che l’architettura e l’intelligenza contano più del portafoglio, oggi assistiamo al medesimo fenomeno contro lo spreco di forza bruta della AI contemporanea. Il sorpasso non avviene cambiando il silicio, ma il modo di pensare.
Attraverso la distillazione algoritmica (la lezione di DeepSeek), la conoscenza dei modelli giganti viene compressa in reti snelle e spesso open-source, capaci di eguagliare i colossi abbattendo i costi di calcolo: dopotutto, non serve una portaerei in un canale se basta un motoscafo veloce. Parallelamente, la specializzazione verticale dimostra che l’alternativa al gigante non è l’AI piccola generica, ma l’AI precisa: modelli focalizzati su domini ristretti (medicina, diritto, manifattura) superano i generalisti consumando una frazione dell’energia. Questa efficienza si sposta anche alla periferia della rete con l’inferenza locale, che trasferisce l’elaborazione dai datacenter direttamente sul chip del dispositivo dell’utente, azzerando la latenza. Al contempo, si impone una necessaria logica di proporzionalità e caching: interrogare un modello di frontiera per una semplice ricetta è come lasciare l’auto accesa per andare a prendere il caffè, uno spreco evitabile riutilizzando le risposte a query già elaborate. Infine, la sfida investe l’hardware stesso attraverso nuove geometrie: architetture come il LogicFolding di Huawei ripiegano i circuiti su più livelli verticali, ottenendo chip più densi e veloci senza bisogno di transistor più piccoli.
Si ritorna così alla stessa ossessione ingegneristica che guidò l’APE100: estrarre la massima resa logica da ogni singolo millimetro di silicio, rifiutando lo spreco dei giganti.

Epilogo: Evoluzione digitale
La parabola che unisce l’APE100 a DeepSeek ci insegna che la forza bruta è una condizione temporanea, l’efficienza è il destino finale.
Le grandi infrastrutture miliardarie di oggi rischiano l’obsolescenza non perché qualcuno costruirà un datacenter più grande, ma perché qualcuno, in un laboratorio universitario o in una startup flessibile, troverà un algoritmo o un’architettura capace di fare la stessa cosa spendendo un dollaro anziché un milione.
Golia costruisce mura sempre più alte e costose. Ma la storia è scritta dai David che imparano a ottimizzare la fionda.
– di Andrea Mazzucchi e Paola Furlan

