Rosetta@home

AMBITO: Biologia, Medicina

STATO: ATTIVO

ATTACH: http://boinc.bakerlab.org/rosetta

VOTO: ( 9 )

Rosetta@home è un progetto che si occupa di prevedere la struttura tridimensionale delle proteine e le interazioni tra di esse. Lo studio di queste caratteristiche potrebbe portare alla scoperta di cure per alcune delle più diffuse malattie. Le proteine infatti sono i mattoni alla base di tutte le funzioni cellulari ed ognuna ha una funzione diversa data dalla sua struttura che, a sua volta, è data dagli amminoacidi che la compongono.

Quindi, conoscere la struttura equivale a conoscere le funzioni. Aumentando la conoscenza in questo campo, i ricercatori saranno in futuro in grado di dire quali proteine potrebbero essere utili per la cura di varie malattie (come AIDS; Cancro, Malaria o Morbo d'Alzheimer) e persino di modellarne di nuove quando necessario.

Rosetta@home è un progetto di Calcolo distribuito per predire le strutture delle proteine. La sua sede è al Baker Laboratory all'Università di Washington e uno dei responsabili di questo progetto è David Baker (Professore di biochimica all'Università di Washington). A partire da questo progetto si è poi sviluppato il gioco Foldit.

Per questo progetto esiste una fase alfa: RALPH@home.

Per maggiori informazioni visitate il Thread ufficiale presente sul nostro forum.

Si ringraziano: Venturini Dario e 7D9 per il video sottotitolato, boboviz per la traduzione delle informazioni generali e dell'approfondimento 1, 7D9 per la traduzione dell'approfondimento 2 e 3.

(scopo del progetto: ultimo paragrafo)

Cosa sono le proteine?

Le proteine sono i “cavalli da tiro” in ogni cellula di ogni essere vivente. Il vostro corpo è composto da miliardi di cellule di tutti i tipi: muscoli, cervello, sangue e altro. All’interno di queste cellule, le proteine consentono al vostro corpo di funzionare: scomporre il cibo per dare forza ai muscoli, mandare segnali al cervello per controllare il corpo e trasportare i nutrienti attraverso il sangue.

Le proteine sono migliaia, di diverse tipologie, ma hanno molto in comune tra di loro. Per esempio, sono fatte della stessa base: ogni proteina consiste in una lunga catena di amminoacidi legati. Gli amminoacidi sono piccole molecole composte di atomi di carbonio, ossigeno, azoto, zolfo ed idrogeno. Per generare una proteina gli amminoacidi sono uniti in una catena allungata, come una fila di persone che si stringono le mani. Come la fila di persone ha le gambe e i piedi al di fuori della fila, ogni amminoacido ha un piccolo gruppo di atomi (la cosidetta "catena laterale" ) che esce dalla fila che li connette l’un l’altro (la catena principale). Ogni amminoacido contribuisce con le braccia alla catena principale, ma a differenza della fila di persone, le catene laterali (le gambe) degli aminoacidi sono abbastanza diverse le une dalle altre. In effetti ci sono 20 differenti tipi di amminoacidi, che differiscono l’uno dall’ altro in base agli atomi presenti nelle loro catene laterali. I 20 aminoacidi hanno nomi come alanina, triptofano, glutammina e leucina.

Un'altra cosa in comune delle proteine è che non amano estendersi in linea retta. Le proteine si ripiegano formando un massa compatta, ma appena questo avviene, alcuni amminoacidi si distribuiscono vicino al centro e altri all’esterno; inoltre alcune coppie di aminoacidi si avvicinano mentre altre si allontanano. Ogni tipo di proteina si ripiega in una maniera specifica - la stessa ogni volta -. La maggior parte delle proteine lo fa da sola, ma alcune hanno bisogno di un aiuto extra per ripiegarsi nella forma corretta.

E’ evidente quindi che l’identità di una proteina è determinata dagli amminoacidi presenti in essa e dall’ordine in cui essi sono disposti. Sorprendentemente, una particolare catena di amminoacidi si ripiega sempre nella stessa maniera – in qualunque modo raggiunga la più bassa energia globale (necessaria al ripiegamento) -. Questo significa che per creare due identiche proteine con le stesse forme e proprietà, tutto ciò che il corpo deve fare è creare due catene con gli stessi amminoacidi nello stesso ordine. Questo è importante dal momento che di alcune proteine ci sono centinaia di copie identiche in ogni cellula del vostro corpo!

Le cellule creano continuamente nuove copie di proteine e distruggono quelle che devono essere riciclate. I progetti per generare le proteine sono i geni, che sono codificati nel vostro DNA. Ci sono piccole differenze nel DNA che rendono diverse le persone. Questo significa che le proteine di una persona potrebbero differire, di poco, da quelle di un’altra. Significa inoltre che metà delle nostre proteine le ereditiamo dalla madre (e sono come le sue) e il resto dal padre (e anche queste sono come le sue). Talvolta questo viene chiamato il Dogma Centrale della biologia molecolare: ogni gene del nostro DNA viene tradotto in una proteina nel corpo.

Che cosa fanno le proteine?

Le proteine sono coinvolte in quasi tutti i processi che avvengono all’interno del nostro corpo: scompongono il cibo per dar energia ai muscoli, attraverso il cervello mandano segnali che controllano il corpo e trasportano i nutrimenti attraverso il sangue. Molte proteine si comportano come enzimi, ovvero catalizzano (accelerano) reazioni chimiche che altrimenti non avrebbero luogo. Ma altre proteine danno energia alle contrazioni muscolari o si comportano come messaggi chimici nel corpo o svolgono centinaia di altre funzioni. Ecco alcuni esempi di cosa fanno:

L'amilasi inizia il processo di scomposizione dell'amido del cibo in forme che il corpo possa usare
L'alcool deidrogenasi trasforma l’alcool di birra/vino/liquori in forme non tossiche che il corpo usa come cibo
L’emoglobina trasporta l’ossigeno nel sangue
La fibrina crea una crosta per proteggere i tagli mentre guariscono
Il collagene dà struttura e supporto alla nostra pelle, tendini e persino alle ossa
L’actina è una delle proteine più importanti nei nostri muscoli
L’ormone della crescita aiuta a regolare lo sviluppo da bambino ad adulto
I canali del potassio aiutano ad inviare segnali attraverso il cervello e le cellule nervose
L’insulina regola la quantità di zucchero nel sangue ed è usata nel trattamento del diabete

Le proteine sono presenti in tutte le forme di vita, compresi piante, batteri e virus. Alcuni organismi posseggono proteine che donano loro speciali caratteristiche:

Il Fotosistema1 è un insieme di proteine nelle piante che catturano i raggi solari per la fotosintesi
La luciferasi catalizza la reazione chimica che fa brillare le lucciole
L’emoglutina aiuta il virus dell’influenza ad invadere le nostre cellule

Che relazione c’è tra le proteine e le malattie?

Con le cose che le proteine fanno per mantenere funzionante e sano il nostro corpo, possono essere coinvolte nelle malattie in molte maniere diverse. Qui sotto, una lista di tre malattie che rappresentano in maniera diversa il modo in cui le proteine possono essere coinvolte nelle malattie.

HIV/AIDS:
Il virus dell’HIV è in gran parte costituito di proteine e, una volta all’interno della cellula, crea altre proteine per aiutarlo a riprodursi. L’HIV-1 proteasi e la trascrittasi inversa (retrotrascrittasi) sono due proteine create dal virus HIV per aiutarlo ad infettare il corpo e a riprodurre sé stesso. L’HIV-1 proteasi taglia la “poliproteina” creata dalla replicazione del virus in “pezzi” funzionali a quello che gli serve. La trascrittasi inversa converte i geni dell’HIV dall’RNA in una forma che l’ospite può comprendere, il DNA. Entrambre le proteine sono necessarie per il virus per replicarsi all’interno del corpo ed entrambe sono il bersaglio dei farmaci anti-HIV. Questo è un esempio di malattia che produce proteine che non nascono naturalmente per aiutarsi ad attaccare le nostre cellule.

CANCRO:

Il cancro è molto diverso dall’HIV per il fatto che, di solito, è causato dalle nostre stesse proteine, invece che da proteine di un invasore esterno. Il cancro scaturisce dalla crescita incontrollata di cellule in una parte del nostro corpo, come i polmoni, il seno o la pelle. Di solito, ci sono sistemi di proteine che limitano la crescita cellulare, ma questi possono essere danneggiati da fattori come i raggi solari UV o i composti chimici del fumo di sigarette. Ma altre proteine, come il soppressore di tumori P53, normalmente riconoscono il danno e fermano le cellule dal diventare cancerose - a meno che non siano troppo danneggiate -. Infatti, il danno al gene per il P53 è riscontrato in circa la metà dei cancri umani (insieme con danni ad altri geni).

MORBO di ALZHEIMER:

In un certo modo, l’Alzheimer è la malattia più direttamente connessa con le proteine. Una proteina, chiamata proteina precursore beta-amiloide, è una parte normale delle cellule nervose sane nel cervello. Ma, per svolgere il proprio compito, viene tagliato in due pezzi e rilascia un piccolo frammento dal mezzo - il peptide beta-amiloide -. Molte copie di questo peptide (corto segmento proteico) posso unirsi per formare “grumi” di proteine nel cervello. Anche se parecchie cose sull’Alzheimer sono ancora sconosciute, si pensa siano questi grumi di proteine siano fortemente coinvolti nella malattia.

Che ruolo ha la struttura proteica nel trattamento delle malattie?

Le proteine sono veramente piccole, troppo piccole per essere viste persino con un microscopio. D’altro canto, usando dei raggi-x speciali o dei magneti molto potenti, gli scienziati sono stati in grado di capire le strutture di alcune proteine, come sarebbero se potessimo vederle. Una struttura completa definisce la posizione tridimensionale di ogni atomo all'interno della proteina.

Una proteina, per funzionare correttamente, deve, di solito, legarsi e interagire con almeno un altro composto chimico o un’altra proteina. Il "luogo" di questa interazione è chiamato “sito di aggancio” delle proteine (o sito attivo, per gli enzimi che effettuano reazioni chimiche). L’interazione dipende dall’adattamento quasi perfetto tra la forma del sito di aggancio e quella della cosa vincolata, come una chiave che entra nella propria serratura. Risolvere la struttura di una proteina ci permette di vedere l’esatta forma e posizione del sito(i) di aggancio.

La maggior parte dei farmaci funzionano trattando il sito di aggancio o attivo di una particolare proteina. Per esempio, il farmaco anti-cancro Tamoxifen si adatta al sito di aggancio del recettore dell’estrogeno. Senza il farmaco, l’estrogeno si unirebbe al recettore dell’estrogeno, il che contribuirebbe ad una crescita incontrollata delle cellule cancerogene. Con il farmaco l’estrogeno non può legarsi e così lo sviluppo del cancro è rallentato.

Tradizionalmente i farmaci sono stati scoperti per tentativi ed errori. Ma se una specifica proteina è nota per essere coinvolta in una malattia e se la struttura di questa proteina è nota, i farmacologi possono cercare di creare un farmaco che si unisca alla proteina. Se funziona, il nuovo farmaco si unirà alla proteina bersaglio e le impedirà di svolgere le proprie funzioni tipiche. Per esempio, due proteine del virus HIV, l’HIV-1 proteasi e la transcriptasi inversa, sono state trattare in questo modo. Sfortunatamente, questa è ancora una procedura che richiede molto tempo e il successo non è garantito. Comunque, molte persone credono che conoscere le strutture proteiche giocherà un ruolo importante nel futuro della scoperta farmacologica.

Ovviamente creare farmaci non è il solo ruolo della conoscenza delle strutture proteiche nel trattamento delle malattie: la struttura di una proteina aiuta a capire cosa fa e come. Questo può farci capire come certi processi funzionino e come essi si corrompano nella malattia. Questa comprensione di base può contribuire al trattamento della malattia al di là dello specifico farmaco.

Che cosa fa Rosetta@home sul mio pc?

Il programma Rosetta lavora su tipi di calcoli diversi, ma tutti collegati alla struttura delle proteine. Dal momento che i calcoli hanno bisogno di molto tempo e che bisogna esplorare diverse possibilità al fine di trovare la risposta giusta, è necessaria una grande quantità di computer .
Per maggiori informazioni, il giornale (on-line) Rosetta@home del Dott. David Baker è una importante fonte di informazioni aggiornate per quanto riguarda i nuovi progetti che vengono messi in funzione su Rosetta@home e come questi si leghino a importanti problemi biomedici. Inoltre è possibile seguire l’ “Active WorkUnits Log ” (Registro delle Unità di Lavoro attive), che è aggiornato sul lavoro che viene svolto da Rosetta@home anche se le descrizioni possono essere stringate e/o tecniche.

Modellazione di proteine terapeutiche:
Dal momento che le proteine sono parte di molte malattie, possono essere anche parte della cura. Il laboratorio di Baker sta usando Rosetta@home per modellare nuove proteine che possono aiutare a prevenire o curare importanti malattie. Per esempio, si sta usando Rosetta per rimodellare parti del rivestimento del virus HIV (il virus dell'AIDS) così da poterle somministrare come valido vaccino. Stiamo anche lavorando sugli antagonisti del recettore androgeno (una proteina coinvolta nel cancro alla prostata) e su nuove endonucleasi (enzima proteico che taglia il DNA) per approcci di terapia genica al trattamento di varie malattie ereditarie. Si possono vedere maggiori dettagli nell'approfondimento 1: Le malattie.

Previsione della struttura proteica:
Come sopra descritto, conoscere la struttura di una proteina è fondamentale per capire come essa lavori e come trattarla con farmaci. Rosetta cerca di predire la struttura della proteina per via computazionale, contrariamente al metodo sperimentale. Questo problema, spesso chiamato “il problema del ripiegamento proteico”, è considerato come uno dei più difficili problemi della biologia odierna. La soluzione computazionale è preferibile poiché il metodo sperimentale di solito richiede molti mesi o anni di tempo e costa centinaia di migliaia di dollari per singola proteina (e l’essere umano ha decine di migliaia di proteine differenti – per non parlare di tutte le proteine negli altri organismi).
Alcune delle strutture elaborate da Rosetta@home riguardano proteine la cui struttura non è realmente conosciuta. I modelli risultanti sono usati per risolvere alcuni specifici problemi biologici, come il meccanismo che regola una malattia. Altre elaborazioni sono test di cui si conosce già la risposta e vengono usati per migliorare Rosetta stessa. Un esempio di questi test è la competizione chiamata CASP, nella quale team di ricercatori da tutto il mondo cercano di prevedere le stutture di proteine dove la risposta è stata recentemente determinata sperimentalmente, ma che non è ancora stata resa pubblica. Rosetta fa parte dei migliori partecipanti al CASP.

Aggancio proteina-proteina:
I problemi dell'aggancio si focalizzano sul predire come due “cose” si vincolino l’un l’altra - in questo caso due proteine -. Il sapere quali parti delle proteine interagiscono e i loro orientamenti nello spazio aiuta a capire le funzioni di quelle proteine. Questo aiuta, inoltre, a creare medicinali che possono interrompere le interazioni, se l’interazione è parte della malattia (per esempio, le proteine dell’HIV che si vincolano alle proteine superficiali delle cellula così che il virus possa infettarla). In alcuni casi le strutture delle due proteine sono note, ma in altri casi dobbiamo prima predirle (vedi sopra). Per migliorare le prestazioni di Rosetta nell'aggancio
proteina-proteina, il laboratorio di Baker partecipa anche alla competizione CAPRI. Come in CASP, in CAPRI i ricercatori cercano di prevedere le interazioni proteina-proteina che sono state recentemente scoperte, ma che non sono ancora di pubblica conoscenza.

Aggancio e modellazione di farmaci:
Rosetta può anche essere usata per agganciare molecole simili a quelle dei farmaci con varie proteine per vedere come possono legarsi le une alle altre. Provando molti potenziali farmaci provenienti da un grande catalogo di molecole potremmo scoprire un farmaco che si lega alla proteina di interesse. D’altro canto, se un farmaco è già noto per la sua corrispondenza con una data proteina, possiamo elaborare dei modi per migliorarlo osservando come si lega a quella proteina.

Commenti di David Baker (amministratore del progetto)

Il mio gruppo di ricerca è coinvolto sia nella fondamentale ricerca delle metodologie di sviluppo sia nel tentativo di combattere le malattie in maniera più diretta. La maggior parte delle informazioni presenti nel sito sono focalizzate sulla ricerca di base, ma penso potreste essere interessati a sentire qualcosa a proposito del lavoro sulle malattie che stiamo svolgendo grazie al vostro contributo a Rosetta@home.

La malaria: Siamo parte del progetto collaborativo guidato da Austin Burn all’Imperial College di Londra che è uno dei “Grand Challenge Projects in Global Health” (Progetti Grandi Sfide per la Salute Globale) della Gates Foundation. La malaria è causata da un parassita che spende parte della sua vita all’interno delle zanzare e passa agli uomini attraverso le punture. L’idea che sta dietro al progetto è di creare zanzare resistenti al parassita eliminando alcuni loro geni che servono al parassita per sopravvivere al loro interno. La nostra parte nel progetto è di usare i nostri metodi computazionali di design (ROSETTA) per generare nuovi enzimi che potranno colpire e disattivare questi geni.

L’antrace: Stiamo usando ROSETTA per aiutare il gruppo di ricerca di John Collier ad Harvard a costruire modelli della tossina dell'antrace che possano contribuire allo sviluppo di cure. Potete leggere il riassunto di un documento che descrive questo lavoro all’indirizzo http://www.pnas.org/cgi/content/abstract/102/45/16409

HIV: uno dei motivi per cui l’HIV è un virus così letale è che si evolve per ingannare il sistema immunitario. Stiamo collaborando con i ricercatori di Seattle e del NHI per cercare di sviluppare un vaccino per l’HIV. Il nostro ruolo nel progetto è centrale. Stiamo usando ROSETTA per creare piccole proteine che mostrino il piccolo numero di zone critiche nella proteina di rivestimento dell' HIV in modo che il sistema immunitario possa riconoscerlo e generare anticorpi contro di esso. Il nostro fine è di creare piccoli vaccini fatti di proteine stabili che possano essere prodotti in maniera molto economica e diffusi in tutto il mondo.

Altri virus: Abbiamo collaborato con il laboratorio di Pam Bjorkman Cal Tech per usare il metodo di aggancio proteina-proteina di ROSETTA per costruire modelli delle proteine del virus herpes simplex combinate con proteine umane.

Il morbo di Alzheimer: L'Alzheimer e molte altre malattie sono probabilmente causate dal ripiegamento proteico errato in cui le proteine formano grandi strutture aggregate chiamate amiloidi piuttosto che ripiegarsi nei loro normali stati biologici. Un grande passo avanti è stato fatto recentemente dal gruppo di ricerca di David Eisenberg all'UCLA nello svolgere la prima struttura di un amiloide. Stiamo collaborando con il loro gruppo di ricerca per prevedere quali parti delle proteine tendono a formare amiloidi; ciò sarà il primo passo per fermarne la formazione e speriamo quindi la malattia.

Il cancro: il cancro può essere causato da mutazioni in alcuni geni chiave, le quali interrompono il normale controllo cellulare. Stiamo sviluppando metodi per tagliare il DNA in zone specifiche del genoma e stiamo puntando in particolare a quelle zone che sono implicate nel cancro. Dopo aver tagliato in questi punti, il DNA dovrebbe essere riparato dalla cellula usando una seconda copia, non mutata, del gene ed a questo punto la cellula non dovrebbe più essere cancerosa. Questa è una forma particolare di terapia genica che, se dovesse avere successo, smonterà una delle maggiori obiezioni agli attuali metodi di terapia genica; ossia, i metodi odierni inseriscono in maniera casuale una copia immutata di un gene nel genoma. Se il punto di inserimento è vicino ad uno oncogeno, la terapia genica curerà una malattia, ma ne causerà un altra. Dal momento che il nostro metodo colpisce zone specifiche invece che casuali, si dovrebbe poter evitare questa insidia.

Cancro della prostata: Il recettore androgeno (AR) lega il testosterone ed è responsabile del normale sviluppo maschile. Quando l'AR diventa ipersensibile al testosterone il risultato è il cancro alla prostata. L'attuale trattamento per il cancro alla prostata, chiamato terapia ormonale, comporta la riduzione della quantità di testosterone presente (talvolta tramite castrazione). Molti tumori maligni, tuttavia, sono resistenti a questa terapia quindi stiamo applicando il nostro metodo di modellazione proteica per trovare modi diversi per inibire l'AR e per trattare il cancro alla prostata. Nel caso specifico, stiamo tentando di modellare proteine che disattiveranno l'AR anche in presenza di testosterone. Lo stiamo facendo modellando proteine che dovranno prevenire l'entrata di AR nel nucleo della cellula (che è dove svolge il suo sporco lavoro) e anche prevenendo il suo legarsi al DNA e l'attivazione dei geni specifici del tumore, qualora riuscisse ad entrare nel nucleo.

I seguenti progetti non stanno ancora girando su BOINC a causa del fatto che non abbiamo ancora un sistema efficiente di gestione delle code che permetta alla gente di aggiungere facilmente i lavori da fare, ma dateci un occhio a breve! Inoltre, state certi che i calcoli per la previsione delle strutture proteiche che girano oggi sui vostri computer avranno ripercussioni dirette sul trattamento delle malattie. C’è una triplice spiegazione per questa relazione diretta tra la previsione della struttura e la cura:

1. La previsione delle strutture e la modellazione delle proteine sono strettamente correlate.
I miglioramenti nella previsione delle strutture portano a miglioramenti nella modellazione delle proteine, che portano direttamente alla creazione di nuovi enzimi, vaccini, ecc. Per maggiori informazioni sulla modellazione proteica potreste essere interessati a dare un’occhiata alla sintesi che abbiamo recentemente scritto e che è disponibile alla nostra home page (http://depts.washington.edu/bakerpg ).
Schueler-Furman, O., Wang, C., Bradley, P., Misura, K., Baker, D. (2005). Progress in modeling of protein structures and interactions Science 310, 638-642.

2. La previsione delle strutture identifica i bersagli per creare nuovi farmaci.
Quando prevediamo le strutture proteiche del genoma umano su larga scala, impariamo le funzioni di molte di loro; ciò ci aiuterà nella comprensione di come le cellule lavorino e di come le malattie accadano. Più in particolare, saremo capaci di identificare molti nuovi potenziali bersagli per i farmaci per i quali piccole molecole inibitrici (farmaci) possano essere modellate. Contestualizzando, uno dei maggiori ostacoli nello sviluppo di nuovi trattamenti per le malattie umane è l’identificazione di nuovi bersagli proteici per l'azione dei farmaci. La maggior parte dei nuovi farmaci oggigiorno interagisce con gli stessi bersagli dei vecchi farmaci, portando così solo piccoli miglioramenti nel trattamento delle malattie. La previsione delle strutture ci aiuta ad identificare nuovi bersagli farmacologici e ci aiuterà a trovare trattamenti innovativi per le malattie, forse persino rivoluzionari.

3. La previsione delle strutture ci permette di usare un “modello razionale” per la creazione di nuovi farmaci.
Se conosciamo la struttura di una proteina, possiamo determinare il suo sito funzionale e puntare precisamente a quei siti per renderli inattivi con un nuovo farmaco. Il calcolo dell'eventualità che una piccola molecola (farmaco) si leghi e renda inattiva una proteina bersaglio è simile ai calcoli per la previsione delle strutture che stiamo svolgendo – è fondamentalmente il problema di trovare la struttura proteica combinata con il farmaco con la minor energia — e noi abbiamo recentemente sviluppato un nuovo modulo in ROSETTA per questo problema dell'aggancio. I risultati sono molto promettenti e nel prossimo futuro è probabile che le vostre macchine eseguiranno calcoli per l'aggancio dei farmaci insieme a progetti di modellazione proteica per terapie e vaccini descritta sopra, in aggiunta ai calcoli di ripiegamento proteico che state facendo già ora.

Previsione e progettazione di strutture e interazioni macromolecolari

Introduzione:
Lo scopo della nostra attuale ricerca è lo sviluppo ed il miglioramento di modelli di interazioni intra ed intermolecolari e di usarli per prevedere e disegnare strutture ed interazioni macromolecolari. Le applicazioni di previsione e progettazione, che possono essere di grandissimo interesse biologico, forniscono anche informazioni precise ed oggettive che migliorano il modello e le conoscenze fondamentali.

Noi usiamo un software chiamato Rosetta per portare avanti calcoli di disegno delle proteine. Al centro di Rosetta ci sono potenti funzioni per calcolare l’energia delle interazioni con e tra macromolecole, e metodi per trovare la struttura a minor energia di una sequenza di aminoacidi (previsione di strutture proteiche) o un complesso proteina-proteina e per trovare la sequenza di aminoacidi a minor energia per una proteina o per un complesso proteina-proteina (disegno di proteine). Riscontri con i risultati delle previsioni sono continuamente adottati per migliorare le potenti funzioni e gli algoritmi di ricerca. Lo sviluppo di un software in grado di trattare queste diverse questioni porta dei considerevoli vantaggi. Per prima cosa, le diverse applicazioni forniscono prove complementari dei fondamentali modelli fisici (la fisica fondamentale/fisica chimica sono ovviamente le stesse in ogni caso); secondo, molti problemi di attuale interesse, come un disegno flessibile di scheletri proteici e il legame tra proteine con la flessibilità dello scheletro, implicano una combinazione di differenti metodi di ottimizzazione.

Progettazione di strutture proteiche:
Negli ultimi anni, abbiamo utilizzato i nostri metodi informatici di disegno proteico per stabilizzare moltissime piccole proteine ricostruendo ogni piccolo residuo della loro sequenza, per ricostruire la conformazione del loro scheletro, per convertire una proteina monomerica in un dimero incrociato, e per termo-stabilizzare un enzima. Una prova ne è la riprogettazione dello schema di ripiegamento della proteina G, una piccola proteina contenente due foglietti-beta separati da un alfa-elica. In circostanze naturali, la prima struttura a forcina è interrotta e la seconda è formato a seconda del passo di ripiegamento. In una variante riprogettata nella quale la prima forcina è significativamente stabilizzata e la seconda destabilizzata, l’ordine degli eventi è inverso: la prima forcina è formata e la seconda è interrotta nel ripiegamento. L’abilità nel riprogettare razionalmente i passaggi del ripiegamento delle proteine mostra quanto le nostre conoscenze nella determinazione dei ripiegamenti siano avanzate considerevolmente.

(Figura1: Progettazione di interazioni proteiche e proteina-proteina con un’accuratezza ad alta risoluzione. Comparazione di un modello progettato e di una struttura cristallina (sinistra) di interfacce di nuove endonucleasi progettate con nuove specificità di taglio del DNA, e a destra proteina TOP7 riprogettata.)

Particolarmente eccitante è la recente creazione di nuove proteine con strutture 3D scelte arbitrariamente. Abbiamo sviluppato una strategia computazionale generale per creare queste strutture proteiche che incorporano una completa flessibilità dello scheletro nell’ottimizzazione di sequenze basate su rotameri. Questo è portato a termine integrando una previsione di strutture proteiche ab initio, un raffinamento energetico a livello atomico e la progettazione della sequenza in Rosetta. La procedura è utilizzata per progettare una proteina a 93 residui chiamata TOP7 con una nuova sequenza e topologia. TOP7 fu scoperta essere monomerica e ripiegata e la sua struttura cristallina ai raggi x è sorprendentemente simile (RMSD = 1.2 Å; vedi pannello a destra della figura 1) al modello progettato. La progettazione di nuove proteine globulari ripiegate e la forte corrispondenza delle strutture cristalline ai modelli progettati hanno ampie implicazioni nella previsione delle strutture proteiche ed aprono le porte all’esplorazione della vastissima regione dell’universo delle proteine che non è stato ancora osservata in natura.

Progettazione di interazioni proteina-proteina:
Per estendere questi metodi alle interazioni tra proteine ed in particolare per riprogettare interazioni specifiche, abbiamo scelto il complesso ad alta affinità tra colicina E7 DNasi e la sua affine proteina immuno inibitoria come modello di sistema. Abbiamo usato il modello fisico descritto sopra e una modificazione della nostra strategia computazionale di progettazione basata sulla ricerca di rotameri per generare nuove coppie di proteine inibitorie della DNasi progettate per interagire fortemente con altre ma non con le proteine naturali. I complessi proteici progettati hanno affinità subnanomolari, sono funzionali e specifici in vivo ed hanno più di un ordine di grandezza di differenze di affinità tra coppie affini e non affini in vitro. Questo approccio potrebbe essere applicabile alla progettazione di coppie di proteine interagenti con nuove specificità per delineare e riprogettare le reti di interazioni proteiche nelle cellule viventi.

In collaborazione con il gruppo di ricerca di Barry Stoddard e Ray Monnat (Centro di ricerca sul cancro “Fred Hutchinson”), abbiamo generato una endonucleasi artificiale altamente specifica fondendo i domini delle endonucleasi I-Dmol e I-Crel attraverso ottimizzazioni computazionali di una interfaccia dominio-dominio tra queste proteine normalmente non interagenti. L’enzima risultante, E-Drel (progettato I-Dmol/l-Crel), lega un lungo sito target di DNA con affinità nanomolari, spaccandolo precisamente ad un tasso equivalente ai suoi naturali progenitori. Stiamo attualmente provando a generare nuove endonucleasi estendendo i nostri metodi di progettazione alle interfacce proteina-acido nucleico per riprogettare l’interfaccia proteina-DNA.

In entrambi questi sistemi è possibile determinare la struttura cristallina ai raggi x del complesso progettato. Come nel caso di TOP7, le strutture reali sono molto simili ai modelli progettati (Figura 1, pannello sinistra), che confermano l’accuratezza del nostro approccio di modellamento ad alta risoluzione.

Previsione di strutture proteiche:
Il quadro del ripiegamento delle proteine che motiva il nostro approccio alla previsione di strutture proteiche ab initio è che le interazioni locali dipendenti dalla sequenza influenzano segmenti della catena creando distinti gruppi di strutture locali e che le interazioni non locali selezionano le strutture terziarie a minor energia tra le molte conformazioni compatibili con quelle influenze locali. Nell’implementazione della strategia suggerita da questo quadro, usiamo vari modelli per trattare le interazioni locali e non locali. Piuttosto che provare un modello fisico per la relazione sequenza-struttura, esaminiamo un database proteico e prendiamo la distribuzione delle strutture locali di segmenti a corta sequenza (meno di 10 residui in lunghezza) tra le strutture tridimensionali conosciute come un’approssimazione delle strutture campionate da peptidi isolati con sequenze corrispondenti.

Le interazioni non locali primarie considerate sono le interazioni idrofobiche ed elettrostatiche, i legami idrogeno e l'ingombro sterico. Le strutture che sono simultaneamente coerenti con le strutture delle sequenze locali e con le interazioni non locali sono generate usando appaiamenti simulati per minimizzare l’energia di interazioni non locali definite dalla distribuzione delle strutture locali.

rosetta_ricerca_2

(Figura 2: Predizione di strutture proteiche dal CASP3 e CASP4)
A: Sinistra, struttura cristallina del fattore di trascrizione MarA legato al DNA; destra, il nostro miglior modello inviato in CASP3. Nonostante molti dettagli errati, il ripiegamento è predetto con sufficiente accuratezza da permettere intuizioni riguardo alla modalità di legame al DNA.
B: Sinistra, struttura cristallina della batteriocina AS-48; in mezzo, il nostro miglior modello inviato in CASP4; destra, una proteina strutturalmente e funzionalmente relazionata (NK-lysin) identificata usando questo modello in una ricerca basata sulla struttura nel database Protein Data Bank (PDB). Le similitudini strutturali e funzionali non sono riconoscibili usando il metodo di comparazione della sequenza (la somiglianza tra le due sequenze è solo del 5%).
C: Sinistra, struttura cristallina del secondo dominio del MutS; in mezzo, il nostro miglior modello inviato per questo dominio in CASP4; destra, proteina strutturalmente relazionata (Ruv C) con la relativa funzione riconosciuta usando il modello in una ricerca basata sulla struttura nel database PDB. Le somiglianze non erano state riconosciute usando la comparazione della sequenza o il metodo di riconoscimento del ripiegamento.

Rosetta è stato testato nei test biennali del CASP (valutazione critica di predizioni strutturali) nei quali gli scienziati sono stati messi alla prova nel fare predizioni “cieche” delle strutture adottate da sequenze proteiche le cui strutture erano già state determinate, ma non ancora pubblicate. Sin dal CASP3 del 1998, Rosetta è stato il miglior metodo per la previsione ab initio, come riportato anche da ispettori indipendenti. Negli esperimenti di CASP4, per esempio, Rosetta fu testato su 21 proteine. La predizione per queste proteine, le quali erano prive di somiglianze di sequenza con qualsiasi proteina della quale fosse già stata predetta la struttura, fu di una consistenza e di una accuratezza senza precedenti. Altre eccellenti predizioni furono fatte in CASP5 e CASP6. Incoraggiati da questi promettenti risultati, abbiamo generato modelli per tutte le grandi famiglie di proteine di meno di 150 aminoacidi di lunghezza.

rosetta_ricerca_3 (Figura 3: La prima predizione cieca ab initio con risoluzione a livello atomico della struttura T281 in CASP6. Il metodo del raffinamento ad alta risoluzione descritto nel testo ha prodotto un modello 1.5-Å RMSD dalla struttura cristallina (riquadro a sinistra), con aspetti della conformazione nativa della catena laterale (riquadro a destra).

Un punto importante del CASP6 fu la prima previsione cieca che usò il nostro metodo di raffinamento ad alta risoluzione per raggiungere una precisione prossima all’alta risoluzione. La relativamente corta sequenza (76 residui) permise di applicare il nostro metodo di raffinamento atomico non solo alla sequenza originaria ma anche alle sequenze di molti omologhi. Il centro del gruppo di minor energia di strutture risultò essere notevolmente vicino alla struttura originale. Il protocollo di raffinamento ad alta risoluzione ha fatto abbassare l’RMSD da 2.2Å a 1.5Å e le catene laterali sono disposte in modo simile a quello nativo nel centro proteico.

Abbiamo esteso la strategia di previsione delle strutture ab initio al problema dell’uso di dati sperimentali limitati per generare modelli di proteine. Adottando cambiamenti chimici, informazioni NOE e più recentemente coppie di informazioni dipolari nella procedura di generazione strutturale di Rosetta, siamo in grado di generare modelli molto più accurati della sola previsione strutturale ab initio o di quando venivano usati gli stessi dati limitati trovati grazie al convenzionale metodo di generazione strutturale di risonanza nucleare magnetica (NMR). Un eccitante recente sviluppo è che la procedura di Rosetta può anche avere il vantaggio di dati NMR non assegnati e quindi raggirare il difficoltoso e tedioso passo dell’assegnamento dello spettro NMR.

Il metodo di Rosetta per la previsione di strutture ab initio, il metodo di determinazione strutturale NMR basato su Rosetta ed un nuovo metodo per la comparazione di modelli che usano l’approccio di Rosetta per modellare le parti delle strutture (principalmente lunghi "cappi") che non possono essere accuratamente modellati basandosi su un esempio di struttura omologa sono stati tutti inseriti in un server pubblico chiamato Robetta. Questo server, che ha un costante arretrato di utenti nel mondo, è uno dei migliori server completamente automatici di predizione strutturale nei test di CASP5 e CASP6.

Previsione di interazioni proteina-proteina:
Per vari anni abbiamo lavorato al raffinamento delle strutture proteiche, un ambizioso problema a causa dell’ampio grado di libertà. Ci siamo interessati del legame proteina-proteina perché, con l’approssimazione che le due proteine non subiscano significativi cambiamenti conformazionali durante la loro interazione, lo spazio da cercare - i 6 gradi di libertà della parte rigida in aggiunta ai gradi di libertà della catena laterale - è molto minore. Benchè sia importante di per sè, questo problema è un buon trampolino di lancio per il più difficile problema di raffinamento strutturale.
Abbiamo sviluppato un nuovo metodo per predire i complessi proteina-proteina partendo dalle coordinate dei componenti monomerici separati. Questo metodo impiega una ricerca Monte Carlo a bassa risoluzione seguita da ottimizzazioni simultanee dello spostamento della catena principale e della conformazione delle catene laterali con una procedura di minimizzazione Monte Carlo e modelli fisici utilizzati nei nostri lavori di previsione strutturale ad alta risoluzione. L’ottimizzazione simultanea del grado di libertà delle catene laterali e della parte rigida è in contrasto con molti altri attuali approcci, i cui modelli di interazione proteina-proteina sono trattati come un problema di forma della parte rigida, con le catene laterali tenute fisse. Abbiamo recentemente migliorato il metodo (Rosetta Dock) sviluppando un algoritmo che permette un efficiente campionamento delle conformazioni delle catene laterali senza rotameri durante il legame.

rosetta_ricerca_4

(Figura 4: Risultato del legame proteina-proteina di CAPRI (valutazione critica delle interazioni predette). Sovrapposizione di strutture proteiche complesse; previste (blu) e ai raggi x (rosso ed arancione). Verde, un residuo laterale per cui è stato correttamente predetto il cambiamento conformazionale in seguito alla formazione del complesso. Quadro in alto, l’intero complesso. Quadro in basso, dettagli dell’interfaccia. In aggiunta all’orientamento della parte rigida, le conformazioni di molte delle catene laterali sono state predette correttamente.

La Potenza di RosettaDock è stata sottolineata in una recente sfida cieca di ripiegamento proteina-proteina (CAPRI) tenutasi nel dicembre 2004. In CAPRI agli scienziati sono state fornite le strutture di due proteine che formano un complesso e sono stati sfidati a predire la struttura del complesso. Le previsioni di RosettaDock dei campioni senza significativi cambiamenti conformazionali nella catena principale furono impressionanti, come mostrato in Figura 4. Non solo l’orientamento della parte rigida delle due strutture era previsto quasi alla perfezione, ma anche pressoché tutte le interfacce delle catene laterali erano modellate molto accuratamente. Questi modelli corretti spiccano chiaramente come i più a bassa energia rispetto a tutti gli altri modelli generati; ciò suggerisce che il potenziale della funzione è ragionevolmente accurato.

Questi promettenti risultati indicano che presto questo metodo potrà essere utile per generare modelli di importanti complessi biologici partendo dalle strutture di componenti isolati e più generalmente che questa previsione ad alta definizione di strutture e interazioni è giunta all’arrivo. Un chiaro obiettivo del nostro lavoro di predizione strutturale dei monomeri è di avvicinare il livello di accuratezza di questi modelli.

Miglioramento dei modelli fisici:
Il nostro attuale approccio per migliorare le funzioni energetiche implica una combinazione di calcoli di chimica quantistica su semplici composti modello, approcci tradizionali di meccanica molecolare ed analisi strutturale di proteine. Abbiamo usato tale approccio per sviluppare e migliorare il potenziale del legame idrogeno. Un risultato particolarmente rilevante è che la dipendenza dall’orientamento del legame idrogeno nei calcoli di chimica quantistica su dimeri di formamide è considerevolmente simile a quanto visto nei legami idrogeno tra residui laterali nelle strutture proteiche, ma differente da quello nei campi di forza nell’attuale meccanica molecolare, i quali trascurano il carattere covalente del legame idrogeno. Riscontri dai calcoli di previsione e disegno hanno fornito continuo impeto e consigli per migliorare la funzione energetica; per esempio, inadeguatezze nel nostro trattamento di interazioni proteina-proteina hanno condotto al recente sviluppo di un modello basato su rotameri per i legami idrogeno mediati dall’acqua.

Piani per il futuro:
I nostri metodi di predizione e progettazione hanno raggiunto il punto nel quale possono essere applicati ad importanti problemi biologici. Particolarmente incoraggianti dopo anni di lavoro sul modellamento ad alta risoluzione sono le previsioni a risoluzione quasi atomica delle strutture dei complessi in CAPRI (Figura 4), le previsioni a 1.5-Å in CASP6 (Figura 3) e lo stretto accordo di TOP7 (Figura 1, destra) ed i modelli disegnati di interfacce proteina-proteina con le strutture cristalline ai raggi x (Figura 1, sinistra). Questi risultati suggeriscono che il modellamento ad alta risoluzione inizia a funzionare.

Nei prossimi anni, miriamo a migliorare ed estendere i nostri metodi. Siamo particolarmente focalizzati nel migliorare l’accuratezza della previsione di strutture ad alta risoluzione (che sarà richiesta se i modelli saranno generalmente utili). Per fare questo, lavoreremo nel migliorare i modelli fisici fondamentali ed il metodo di campionamento. Stiamo anche sviluppando metodi per prevedere e ridisegnare interazioni specifiche proteina-DNA ed estendere il nostro metodo di disegno delle proteine al disegno di enzimi in grado di catalizzare reazioni chimiche non catalizzate dalle proteine naturali esistenti.

Visita il sito web http://www.bakerlab.org per ulteriori informazioni incluse le pubblicazioni delle nostre ricerche.

La strategia di Rosetta per trovare la conformazione proteica a più bassa energia (quindi più stabile) si divide in cinque punti:

Inizio con una catena proteica completamente rilassata.
Muovere una parte della catena per creare una nuova conformazione.
Calcolare l’energia di questa conformazione.
Accettare o rifiutare il ripiegamento in base a come si è modificata l’energia.
Ripetere i punti dal 2 al 4 fino a che ogni parte della catena è stata piegata molte volte.

Questa viene chiamata “trajectory”. Ogni task sul proprio computer esegue in media dalle 5 alle 20 trajectory.

Ogni trajectory è suddivisa in due parti. Nella prima viene effettuata una ricerca della forma della proteina a bassa risoluzione (sul proprio screensaver si vede la proteina cambiare forma molto velocemente). Dopo che la forma “grezza” della proteina è stata trovata inizia la seconda fase ad una più alta risoluzione in cui vengono effettuati piccoli aggiustamenti per dare ad ogni amminoacido la sua posizione precisa (lo screensaver mostra la proteina che si muove in maniera minore e più lentamente). Questa seconda fase richiede più tempo per via della maggiore complessità che si presenta nel considerare i singoli atomi degli amminoacidi.

rosetta_screensaver_1

"Searching…” mostra i ripiegamenti che Rosetta sta testando sulla proteina. (L’inizio della catena è in blu e la fine in rosso).

rosetta_screensaver_2

“Accepted” mostra il più recente ripiegamento accettato tra quelli tentati in “Searching…”

rosetta_screensaver_3

“Low Energy” mostra la conformazione proteica a più bassa energia della trajectory in esecuzione in quel momento.

rosetta_screensaver_4

“Native” mostra la conformazione determinata sperimentalmente, se conosciuta.

rosetta_screensaver_5

“Accepted Energy” è un grafico che mostra l’energia di ogni ripiegamento accettato in quella trajectory. (Asse x: progresso della trajectory; Asse y: energia).

rosetta_screensaver_6

“RMSD” (root mean square deviation) mostra quanto la struttura al momento accettata è vicina alla soluzione corretta. (Asse x: RMSD; Asse y: progresso)

rosetta_screensaver_7

Il riquadro finale nell’angolo in basso a destra segna l’energia e RMSD di ogni conformazione accettata. Questa è la stessa trama mostrata nella pagina delle “top predictions”. Eccetto per il fatto che sullo screensaver vengono mostrati tutti i punti della trajectory corrente, mentre nelle top predictions ci sono solo i punti a più bassa energia di ogni trajectory calcolata.
(I punti rossi in questo riquadro indicano la struttura a minor energia per quella unità di calcolo).

N.B. se la struttura della proteina in esame è sconosciuta i riquadri "Low Energy", "Native" e "RMSD" non verranno ovviamente mostrati.

Stato del progetto: progetto attivo

Iscrizione libera.

Requisiti minimi: hardware

Processore 500 Mhz o superiore, 200 MB liberi sul disco, almeno 512 MB di RAM.

Screensaver: disponibile

Lo screensaver mostra in tempo reale i dati della proteina, lo stato dell'avanzamento dell'elaborazione e tutte le varie informazioni tecniche. Per una descrizione dettagliata vedi la pagina precedente. Vedi l'approfondimento su questo stesso articolo.

Assegnazione crediti: fissati per singola WU

Quorum = 1 (se è >1 le WU dovranno essere convalidate confrontando i risultati con quelli di altri utenti).

Applicazioni e WU disponibili: vedi scheda "Link"

Cliccare sulle icone relative alle "Applicazioni"

e allo "Stato del server"

Sistemi operativi supportati: vedi scheda "Info tecniche"

Dati specifici sull'elaborazione: vedi scheda "Info tecniche"

Per ottenere dati sulla durata media dell'elaborazione, la RAM necessaria e la dead line, consultare la scheda "Info tecniche" qui a destra. Per informazioni particolareggiate (specifiche per applicazione e sistema operativo, intervallo di backup e crediti assegnati) rifarsi alla pagina dei risultati del progetto WUprop@home.

La caratteristica di Rosetta@home è che l'utente può scegliere il tempo di elaborazione delle WU dal pannello delle preferenze specifiche del progetto (Target CPU run time ). Di default è fissato a 3 ore, ma può essere modificata fino a 24 ore. Una via di mezzo accettabile potrebbe essere 6 o 8 ore. E' preferibile effettuare i cambiamenti gradualmente, in modo da non avere problemi di deadline con le WU già scaricate.

Problemi comuni: vedi elenco

Il computer si blocca con lo screensaver di Rosetta:

E' capitato ad alcuni utenti che quando entra lo screensaver di Rosetta a volte il computer si blocca. Per risolvere il problema basta reinstallare BOINC e nella nuova installazione deselezionare l'opzione "Usa BOINC come screensaver" oppure più semplicemente cambiare lo screensaver del proprio PC sostituendolo con uno tradizionale. Se poi si vorrà vedere il grafico di Rosetta basterà cliccare su "Show graphics" all'interno del BOINC Manager.

Molti tasks danno errore e non giungono al termine:

Questo problema il più delle volte può essere risolto semplicemente dal BOINC Manager andando su Advanced/Preferences e selezionando "Leave applications in memory while suspended"/”Lascia le applicazioni in memoria quando sono sospese”.

La percentuale di elaborazione torna indietro quando riparte l'elaborazione:

E' un comportamento noto alla comunità di Rosetta, in quanto il client effettua il salvataggio del lavoro (checkpoint) durante l'elaborazione di una WU solo quando passa da un modello ad un altro. Quindi se l'elaborazione viene terminata prima che venga terminata l'elaborazione di un modello al successivo riavvio tale modello dovrà essere ricalcolato da capo. Per limitare questo inconveniente ed evitare di perdere il lavoro svolto con rosetta, ci sono alcuni settaggi consigliati da effettuare nelle impostazioni generali del progetto (la più importante tra tutte è “Leave applications in memory while suspended?”/”Lascia le applicazioni in memoria quando sono sospese” da settare su YES/Si).

A quanto conviene impostare il tempo di elaborazione delle WUs (Target CPU run time) su Rosetta? E' indifferente oppure ci sono delle scelte migliori?:

Assolutamente indifferente. La scelta del tempo di elaborazione è appunto lasciata all'utente che, in base alle proprie esigenze/preferenze può decidere la durata delle WUs. Si può settare da un minimo di un'ora a un massimo di 24 ore. Per chi ha una connessione internet lenta (56k) è preferibile settare un tempo lungo di elaborazione in modo da dover trasferire meno dati. Il tempo settato di default è 3 ore ed è quello utilizzato dalla maggior parte degli utenti, mentre molti altri preferiscono aumentarlo a 6 - 8 ore. Per i crediti non cambia nulla perchè vanno in base ai modelli elaborati, mentre con tempi più lunghi di elaborazione si è più utili alla ricerca perchè vengono eseguiti più modelli sulle WUs.

Si può modificare la durata delle WU già in cache?:

Si, e questa è un'altra delle caratteristiche di Rosetta. Si può diminuire il Target CPU Run Time per liberare la cache più rapidamente, magari per far posto ad altri progetti o per terminare velocemente le WUs al limite di deadline. Oppure si può aumentare il Target CPU Run Time per far durare più a lungo le WUs già in cache, per ridurre il traffico di rete o per salvaguardarsi da possibili down della rete.
Ogni cambiamento mirato a un innalzamento del Target CPU Run Time deve essere graduale, per evitare di mandare lo scheduler in "panic mode" (overcommited sui Manager 5.4.11 o deadline troubles sui Manager 5.8.x).
La modifica del Target CPU Run Time si effettua dalle preferenze specifiche per Rosetta e va "resa operativa" con un update manuale del progetto dal BOINC Manager.
La modifica del parametro può portare da subito ad una terminazione immediata o ad un allungamento improvviso dei tempi di calcolo poichè il client di Rosetta controlla se proseguire o interrompere l'elaborazione in corso sulla proteina alla fine di ogni modello o all'inizio di una nuova proteina. Come ulteriore conseguenza, tutte le WUs già in cache, ovviamente già precedentemente scaricate, risentiranno della modifica ancor prima di essere mandate in esecuzione poichè le WUs appena ricevute dal server non contengono informazioni sulla durata richiesta, ma hanno solo i parametri legati alla composizione della proteina.

Supporto al progetto: supportato

Per unirsi al team BOINC.Italy consultare la scheda "Link" qui a destra cliccando sull'icona relativa al "JOIN"