astroale ha scritto:
Ma questa cosa mica sara un baco "zero day" ? non ditemi che risale all'inizio dell'applicazione per GPU! 
Se e' giusto quello che avevo capito, cioe' che l'applicazione ha bisogno dei risultati delle WU precedenti per andare avanti, allora basta che un certo numero di result sia toppato e si dovrebbe propagare una divergenza totale globale verso risultati fallati ?
Cmq in attesa di chiarimenti, per non sprecare GPU time ho fatto lo switch sul Collatz, meglio di niente.
l'applicazione scritta da Gipsel è stata controllata in modo super approfondito sulle ATi 48x0, 47x0 e 38x0, tanto che dà risultati PIU' PRECISI dell'applicazione standard della CPU.
Il problema risiede nel fatto che i controlli non sono mai stati fatti sulle GPU della serie 58x0 (cypress), soprattutto perché all'inizio Gipsel non la possedeva. Siccome il codice gira molto bene, a dir la verità, penso che nemmeno lui si sia mai posto il problema di ricontrollare i valori ottenuti con le nuove schede grafiche, d'altra parte funzionava perfettamente sulle vecchie!
E' risultato invece che sulle nuove cypress i buffer vanno letti correttamente (nuovo modo CAL 1.4), mentre invece lui li leggeva con un modo standard CAL 1.3. Questo, terribilmente, non causava alcun errore ma la scheda grafica leggeva molti buffer a precisione ridotta, trascurando dei numeri.
Hai ragione nel dire, come ho proposto, che forse il danno è notevole nei risultati scientifici che milkyway ha elaborato da quando ci sono in giro le nuove ATi (7 mesi?), perché da allora le WU sono vittime di risultati sbagliati (e in milkyway le wu sono generate dai risultati delle precedenti). Ma sicuramente il problema non è nato con le versioni GPU
Sembra che comunque, ammesso l'errore, gli admin passeranno oltre avviando nuove ricerche. Certo che è una cosa paradossale, che passerà però molto in sordina. Finché dai i crediti, dei risultati a pochi interessa.
ps: il danno potenzialmente si sarebbe dovuto verificare anche con collatz, ma una serie fortunata (tragica con senno di poi?) di coincidenze ha fatto sì che i buffer venissero letti in quel caso senza i controlli che la GPU invece fa con i numeri in doppia precisione. Se anche lì si fosse notata una differenza nei risultati ottenuti con le nuove GPU, forse Gipsel avrebbe avuto modo di correggere molto tempo fa il baco! Collatz infatti da sempre ha un quorum = 2 e si sarebbe subito notato un problema...
Chissà a questo punto se quelli di DNETC e di Lunatics sanno del problema (ma non penso li riguardi, dato che dubito scrivessero applicazioni in CAL come invece è riuscito a fare Gipsel/CP - iperottimizzandole - se non sbaglio le loro app sono scritte in Brook+ e solo l'ultima lunatics è uno stranissimo ibrido OpenCL/Brook+)