Pagina 2 di 6
Ottenere più risultati ed attrarre più volontari
Per continuare a tener coinvolti i nostri volontari e reclutarne dei nuovi stiamo lavorando su una estensione di D@H chiamata ExSciTecH, un gioco interattivo e di facile utilizzo per esplorare (Explore) la scienza (Science), le tecnologie (Technology) e la salute (Health). La figura 7 mostra una panoramica del gioco. Questo espande D@H con un ambiente di gioco nel quale i nostri volontari possono imparare, mentre giocano, i passaggi base del processo di aggancio tra proteina e ligando, il quale include i ligandi da agganciare alle proteine per annullarne o amplificarne l’effetto nel corpo.
Potrete anche imparare come identificare le molecole dal nome o dal male che causa (ad esempio HIV o cancro al seno), identificando le molecole (proteine o ligandi) e atomi per tipo, identificare molecole dalla forma, combinando il sito di aggancio, complessità e gradi di flessibilità.
Per ospitare ExSciTecH in D@H e permettere la generazione di lavoro da parte dei volontari sotto un aspetto ludico, le infrastutture di D@H necessitano di alcuni cambiamenti.
Il processo volontario compreso tra “gioco divertente” e “invia il mio lavoro”, visto dalla prospettiva dei server di D@H, è mostrato in figura 8: i volontari inviano il proprio lavoro interattivo facendo indagini sui lavori in coda nei server D@H; i server D@H convalidano le simulazioni prima di generare lavoro da inviare ai client dormienti di D@H; quando i client D@H dormienti terminano l’elaborazione del lavoro, inviano i risultati ai server; i server di D@H raccolgono i risultati, li convalidano e provvedono a riconoscere ai volontari un premio (punteggio).
Questa interazione tra i volontari e i server di D@H richiedono delle modifiche dei server. In aggiunta, i volontari potrebbero potenzialmente inviare risultati errati o danneggiati, quindi i server D@H devono essere protetti, oltre a dover tenere traccia della partecipazione dei volontari e assegnare loro un punteggio per il lavoro svolto.
La figura 9 mostra tre videate del gioco e ci fornisce un assaggio di come il gioco ExSciTecH sembrerà. Nella prima schermata possiamo identificare le molecole e i tipi di molecola fra atomi, ligandi e proteine; nella seconda schermata potete selezionare proteina e ligando, i quali andranno a formare il complesso di cui simulerete l’aggancio; nella terza schermata si sottopone il lavoro, come nuova simulazione, ai server D@H.
In questo modo i volontari possono partecipare alla ricerca creando nuovi ligandi, modificando quelli già esistenti in un database, trovando nuovi siti di attracco nei quali i volontari agganceranno un ligando nella proteina selezionata e trovando gli effetti collaterali causati dall’aggancio corretto del ligando con la proteina sbagliata.
Ci aspettiamo che la versione beta di ExSciTecH sarà pronta nella primavera del 2012.
Elaborare grandi set di dati
Quando si analizzano i risultati di cross-docking, per ogni ligando, abbiamo bisogno di comparare tutti i complessi formati agganciando il ligando dato in tutte le possibili conformazioni della proteina.
Prendiamo per esempio il ligando 1g35 dalla proteina dell’HIV, quando si analizzano i suoi risultati del cross-docking, abbiamo bisogno di paragonare fra tutte le conformazioni generate dai vostri computer per i 25 complessi e i risultati ottenuti. Quando si compiono le comparazioni geometriche e il set di dati è molto ampio, l’algoritmo di raggruppamento gerarchico va in crisi perchè è poco scalabile: le prestazioni dell’algoritmo decadono significativamente quando è frequente il passaggio di dati tra dischi e memoria.
Prendiamo per esempio il ligando 1g35 dalla proteina dell’HIV, quando si analizzano i suoi risultati del cross-docking, abbiamo bisogno di paragonare fra tutte le conformazioni generate dai vostri computer per i 25 complessi e i risultati ottenuti. Quando si compiono le comparazioni geometriche e il set di dati è molto ampio, l’algoritmo di raggruppamento gerarchico va in crisi perchè è poco scalabile: le prestazioni dell’algoritmo decadono significativamente quando è frequente il passaggio di dati tra dischi e memoria.
In aggiunta, questo metodo è difficilmente parallelizzabile a causa delle maggiori dipendenze insite nei dati: i dati dell’iterazione precedente sono usati per formare la divisione in gruppi utilizzata nella corrente iterazione. Per analizzare efficacemente ed efficientemente i grandi set di dati generati dalle simulazioni di cross-docking, abbiamo lavorato su un nuovo e più potente metodo di raggruppamento facile da parallelizzare e con buona scalabilità.
Il modello che meglio si adatta al nostro metodo è MapReduce, i cui risultati preliminari sono stati mostrati durante il SuperComputing 2011 (SC2011); fare riferimento alla nostra sezione di pubblicazioni per i dettagli. Abbiamo pensato di condividere con voi i nuovi risultati nella prossima newsletter, sperando che non dobbiate aspettare così a lungo come in questo caso.