ho avuto via email questa interessante (spero anche per voi) discussione con un amico che lavora come ricercatore nel "climate prediction" a lungo termine, facendo la spola dall'inghilterra al giappone dove gli fanno integrare i dati con il loro
Earth Simulator
(beh, manco a dirlo volete che un ricercatore decente stia in Italia? ....)
comunque sia la metto giu' come botta e risposta le cifre devo dire che mi hanno spaventato
ciao Pier, perche' non usate anche voi BOINC invece di ammazzarvi per prenotare i Cray in giro per il mondo?
Per le scienze del clima e del "sistema Terra", la tecnologia distribuita funziona molto bene finché tutti i punti della "maglia" stanno su un unico nodo. Se ci sono comunicazioni coinvolte, non funziona. Allora va benissimo per quelli che simulano il pianeta a bassa risoluzione, perche caricano tutto il pianeta su un unico nodo, ma non per noi di alta risoluzione, perché dobbiamo rompere il problema su migliaia di nodi che devono comunicare ad altissima, una velocità quasi simile a quella che trovi dentro ogni CPU.
Per esempio su Earth Simulator, nonostante la specialissima rete ad alta velocità che collegava i nodi tra di loro noi potevamo usare solo 88 processori su 5400, perché le comunicazioni creavano un collo di bottiglia oltre gli 88. Al giorno d'oggi, con moltissimi miglioramenti in software e hardware, riusciamo ad usare dai 10'000 ai 100'000 cores per ogni modello che facciamo girare, ma praticamente la rete interna del centro di super computing diventa inservibile a qualunque altro utente.
Altro problema e la mole di dati: ogni mio modello produce circa 1-4TB al giorno usando 4800 cores. Per un anno, ogni santo giorno, abbiamo spostato 10TB/giorno dalla Germania al Regno Unito, per svuotare il centro tedesco, se no il modello si fermava subito. Non era possibile trasferire di piu, in media, anche se certi giorni eravamo fortunati e passavano più dati.
Se io dovessi usare pou di 4800 cores per modello, esauriremmo i dischi del centro di computing ogni poche ore. La mia simulazione ideale, che potrei fare girare adesso, produrrebbe 10PB al giorno. In un anno fanno 3.6 EB e ancora non esiste un centro che li possa archiviare...
Il motivo e matematico: oceano e atmosfera sono fluidi e ogni punto e legato ai suoi vicini dalle leggi della meccanica dei fluidi, fisica e chimica. Per avanzare le variabili nel tempo, con un passo di 10 minuti, dobbiamo continuamente lanciare delle comunicazioni globali per sapere lo stato del fluido (pressione, temperatura, densita, velocità, composizione chimica) a ogni passo nel tempo e a ogni punto del pianeta, da 20km sotto il mare a 85km nel cielo. Sono milioni di punti per maglie di pochi km di spaziamento e le comunicazioni di ogni punto con i suoi vicini e i vicini dei vicini etc. sono abbondantissime.
Alcuni stanno cercando di sviluppare nuove tecniche, abbiamo per esempio un progetto inglese, ma ci vorranno ancora 10 anni di lavoro.
ma allora che risoluzioni usate a spanne? e Climate Prediction? Funziona?
In modalità previsione del tempo la risoluzione dei modelli globali e 10-20km.
In modalità simulazione del clima, che deve girare circa 100anni, la risoluzione tipica e 200km, ma adesso tendono a 100km. Noi siamo pionieri e giriamo a 20km, sperimentando a 10km.
Nell'oceano le risoluzioni sono circa 10x più alte.
Quelli del climateprediction girano a 400-200km di risoluzione.
A quelle risoluzioni il clima globale e ragionevole, ma:
1) non c'è alcuna informazione utile a livello regionale
2) mancano processi fondamentali, tipo insufficiente trasporto di acqua dagli oceani ai continenti, mancanza totale di El Nino, mancanza totale dei monsoni, mancanza totale di quasi tutte le tempeste (cicloni).
Allora, senza questi processi fondamentali:
A) molto spesso si hanno risultati apparentemente buoni, ma vengono prodotti per motivi sbagliati, quindi non ci possiamo fidare quando si parla di variabilità o cambiamenti climatici, perché sono risultati senza le loro fondamenta di processo fisico;
B) non si può parlare di estremi, tipo uragani, perché a quelle risoluzioni non ci sono uragani. Gli uragani cominciano a emergere e risoluzioni di 50km, ma sono ancora debolucci. Ci vuole una risoluzione di perlomeno 1km per riprodurli in modo credibile.
PS Ho scritto un piccolo articolo per Jack Dongarra al suo evento BDEC un paio di mesi fa. Cerca "Vidale BDEC" e dovresti trovarlo. Ci ho messo una tabella dove faccio vedere cosa si può fare con che potenza di calcolo.
si riferisce a questo
www.exascale.org/bdec/
e in particolare:
www.exascale.org/bde...hitepapers/BDEC%20workshop-PL_Vidale.pdf
spero lo troviate interessante, le cifre nel PDF sono semplicemente spaventose (per me)
(PS non sapevo se andava qua o nella categoria Blog, senno' chiedo di spostarlo al moderatore)