Quanto consuma in un giorno un’AI?

 In News tecnologia

Per rispondere in modo utile a quanto consuma l’AI, è necessario chiarire che cosa viene effettivamente misurato. In questo articolo utilizziamo i Wh/prompt come indicatore dell’energia elettrica marginale associata all’elaborazione di una singola richiesta testuale. Accanto a questa metrica consideriamo i gCO₂e/prompt, che stimano le emissioni calcolando i Wh in base all’intensità di carbonio della rete (CIF) nel luogo e nel tempo in cui la query viene processata. Infine, valutiamo i mL/prompt, che corrispondono al consumo idrico indiretto legato al raffreddamento e alla produzione di elettricità, una misura che dipende dal WUE del data center.

Tre avvertenze sono fondamentali. In primo luogo, molte cifre sono fornite direttamente dalle aziende e quindi non sempre verificate. In secondo luogo, i valori puntuali spesso rappresentano il prompt mediano su carichi testuali tipici, ma non dicono nulla sui casi più complessi. In terzo luogo, il testo non va confuso con la multimodalità: immagini, audio e video hanno profili energetici molto più elevati.

Training vs inferenza: perché oggi conta il per prompt

Il training dei modelli foundation rimane un evento raro ma energivoro, con consumi che possono arrivare a decine di gigawattora. Nell’uso reale, però, la quota dominante del ciclo di vita, spesso stimata tra l’80 e il 90%, è rappresentata dall’inferenza: miliardi di richieste quotidiane elaborate in continuo. Per valutare l’impatto operativo, la domanda corretta non è più quanto consuma l’intero sistema in un giorno, ma quanto consuma un prompt tipico in condizioni realistiche di utilizzo.

Metodo & limiti: come leggere i numeri

Quando si leggono i dati sui consumi, è necessario considerare i confini di sistema. I valori per prompt riportati dai provider in genere includono soltanto la parte di data center, senza considerare client, rete di trasporto ed edge. L’efficienza dell’infrastruttura, inoltre, varia in base al PUE, ai sistemi di raffreddamento, al tipo di GPU o TPU utilizzato, al batching, allo scheduling e al mix energetico locale, che determina il CIF. La mediana non racconta tutta la storia: non coglie le code della distribuzione, cioè quei casi di ragionamento profondo, generazione di codice, prompt lunghi o output estesi che incidono notevolmente sul consumo. È anche importante ricordare che le unità non sono intercambiabili: i Wh non equivalgono ai gCO₂e né ai millilitri, e per confrontarli serve esplicitare CIF e WUE. Infine, l’ipotesi che i modelli Mixture of Experts attivino solo una frazione dei parametri durante l’inferenza può spiegare differenze tra modelli a parità di qualità, ma deve essere considerata una spiegazione plausibile, non un dato ufficiale.

Numeri orientativi (testo, prompt tipico)

Questi valori servono come ordini di grandezza per prompt testuali mediani e non possono essere applicati in modo universale a workload complessi o multimodali. Gemini Apps, per esempio, consuma circa 0,24 Wh per prompt mediano e 0,26 mL d’acqua. Si tratta di un dato aziendale, relativo soltanto a testo, non verificato da terzi. ChatGPT consuma circa 0,34 Wh per prompt secondo dichiarazioni ufficiali, mentre stime indipendenti collocano il range tra 0,3 e 0,9 Wh a seconda dell’hardware e della metodologia. Llama 3 con 70 miliardi di parametri arriva a circa 1,7 Wh per prompt in ambienti controllati, ma con forte sensibilità al tipo di serving. Per Claude 3 non sono disponibili valori ufficiali direttamente confrontabili, mentre Mistral Le Chat ha pubblicato valori in gCO₂e per 400 token e in alcuni casi in millilitri, metriche utili per stimare l’impatto ma non confrontabili direttamente con i Wh senza CIF o WUE. In generale, per testo tipico si possono attendere consumi di pochi decimi di Wh per prompt, ma nei carichi complessi e multimodali il conto cresce di ordini di grandezza.

Cosa fa salire (o scendere) il consumo per prompt

Il consumo per prompt aumenta quando cresce la complessità e la lunghezza delle richieste, perché più token in input e in output richiedono più operazioni di calcolo. Tecniche come il chain‑of‑thought, la generazione di codice e i compiti matematici avanzati sono particolarmente energivori. Anche la multimodalità contribuisce in modo rilevante: la generazione di immagini e soprattutto di video aumenta drasticamente i Wh per prompt, con stime di circa 2,9 kWh per mille immagini. L’ampiezza della finestra di contesto è un altro fattore determinante, poiché contesti estesi richiedono più memoria e operazioni per token. La geografia e l’orario influiscono sulle emissioni, dato che lo stesso carico ha un impatto diverso a seconda del mix energetico locale; lo scheduling carbon‑aware può ridurre significativamente i gCO₂e per prompt. Infine, l’hardware e il serving giocano un ruolo cruciale: GPU e TPU recenti, tecniche di quantizzazione e pruning, metodi come lo speculative decoding o il KV‑cache reuse, oltre a pratiche come batching e caching applicativo, permettono di contenere i consumi senza compromettere la qualità percepita.

Tabella comparativa (indicativa)

ModelloUnitàConsumo tipico (testo)Altre metricheNote
Gemini (Apps)Wh/prompt~0,24 (mediano)~0,26 mL/promptSelf‑reported; solo testo; mediana ≠ massimo
ChatGPTWh/prompt~0,34 (media aziendale); ~0,3–0,9 (stime)Dipende da hardware/metodo
Llama 3 (70B)Wh/prompt~1,7 (indipendente)Variabilità alta per serving
Claude 3n/dNessun Wh/prompt ufficiale comparabile
Mistral (Le Chat)gCO₂e/400 tokengCO₂e, talvolta mLNon confrontabile con Wh senza CIF/WUE

Gli errori più comuni da evitare consistono nello scambiare i Wh con i kWh, nel sommare training e inferenza, nel considerare certi parametri o architetture come dati ufficiali quando non lo sono, e nel confrontare Wh e gCO₂e senza CIF.

Ottimizzazione: dal prompt design al data center

La riduzione dell’impatto energetico può essere perseguita a più livelli. Nel design del prompt, ad esempio, è utile ridurre i token inutili, utilizzare stop sequences, riassunti o tecniche di retrieval augmented generation per contenere il contesto. Sul fronte del decoding e del serving, approcci come lo speculative decoding, il riuso delle KV‑cache, il batching, il tuning dei parametri di temperature e top‑p e il caching delle risposte frequenti aiutano a ridurre i consumi mantenendo invariata la qualità percepita. L’orchestrazione dei modelli dovrebbe seguire il principio del modello minimo sufficiente, impiegando modelli più piccoli e rapidi per task semplici e riservando i modelli più grandi alle richieste che lo richiedono davvero. Anche l’infrastruttura ha un peso decisivo: GPU e TPU di nuova generazione, tecniche di quantizzazione e pruning, sistemi di raffreddamento più efficienti e data center con PUE e WUE bassi contribuiscono a contenere l’impatto. Infine, lo scheduling carbon‑aware, cioè l’esecuzione dei carichi in momenti e luoghi in cui l’energia è più pulita, rappresenta una leva cruciale per ridurre le emissioni.

FAQ rapide

Quanto consuma l’AI in un prompt di testo?
Per richieste tipiche i valori oscillano in media tra 0,2 e 0,9 Wh per prompt di testo. È solo un ordine di grandezza: nei casi più complessi il consumo può aumentare sensibilmente.

Perché non posso confrontare tutti i numeri?
Perché Wh, gCO₂e e millilitri misurano aspetti diversi e gli scope delle rilevazioni non sono uniformi. Senza CIF, WUE e dettagli d’infrastruttura i confronti diretti rischiano di essere fuorvianti.

I parametri del modello predicono il consumo?
Non in modo lineare. Architettura, token, tecniche di decoding, hardware e modalità di serving incidono almeno quanto la dimensione.

E per immagini e video?
I consumi crescono di ordini di grandezza rispetto al testo. Per le immagini si citano circa 2,9 kWh per mille immagini, mentre per il video i costi variano in base a risoluzione e durata.

Post suggeriti
Richiesta info

Hai una domanda, un dubbio, una curiosità, una richiesta? Inviaci un messaggio, saremo lieti di risponderti al più presto!

Inizia a digitare e premi Enter per effettuare una ricerca