Ogni essere vivente ha un codice genetico e una serie di geni, che sono necessari per produrre proteine a partire da pezzi di informazioni codificate. I geni sono necessari per la vita e la mantenimento degli organismi e sono espressi nelle cellule: le informazioni contenute vengono trascritte e tradotte in proteine.
Questo fenomeno dell’espressione genica si basa su una catena complessa di eventi in cui alcune particolari proteine agiscono sulle regioni geniche e può essere semplificata attraverso una relazione causale tra due geni. La causalità è una sorta di legame tra due variabili causa-ed-effetto: significa che la presenza di una è la causa della comparsa dell'altra.
L’informazione dell’espressione genica è di solito rappresentata in Reti Gene-Regolatori (GRN), che utilizzano i bordi per indicare la relazione causale tra due geni. Questa rappresentazione è molto utile per prevedere e manipolare il comportamento di un sistema. Ogni GRN può essere espanso per aggiungere o suggerire nuovi geni correlati a quelli già noti; questo permette l'amplificazione della ricerca e l'analisi di una rete. Tuttavia, ci sono solo un paio di metodi disponibili per eseguire l'espansione, che è ancora una sfida aperta al mondo della bioinformatica.
Per ulteriori informazioni visitate il thread ufficiale presente nel nostro forum.
Dettagli sulla ricerca
Ogni rete GNC è un grafico che specifica le relazioni causali all'interno di questo gruppo di geni, ed aiuta a studiare il fenomeno dell’espressione genica: il processo attraverso il quale il DNA è trascritto in RNA e l'RNA tradotto in proteine.
L’espansione di un GRN significa trovare nuovi geni correlati a quelli esistenti, e permette una maggiore comprensione del fenomeno per essere in grado di prevedere - e nel caso manipolare - i comportamenti.
Il PC-IM proverà, all’inizio, i geni della pianta Arabidopsis Thaliana, considerata un organismo modello dal punto di vista biologico, e riceverà in ingresso un GNR locale - chiamato Local Network Gene (LGN) ovvero una lista di geni candidati per l'espansione e un po 'informazioni sulla espressione dei dati. Durante la sua esecuzione si cercherà di stabilire l'esistenza di relazioni causali tra i geni e l'LGN, e si avrà come risposta un nuovo GRN. Il lavoro dell’algoritmo può essere distinto in 5 fasi:
1. Creazione dei blocchi
I geni candidati per l'espansione sono partizionati casualmente in blocchi non-sovrapposti: il motivo è che l'algoritmo è più efficiente quando funziona con meno di 1000 variabili, in modo che il lavoro deve essere fatto con reti di dimensioni inferiori. Ogni blocco viene fuso con la LGN in ingresso, in modo da essere in grado di dedurre le relazioni causali, e l'operazione viene ripetuta i volte (dove i è il numero di iterazioni dell'algoritmo).
2. Applicazione PC
L'algoritmo PC viene eseguito su ciascun blocco, sfruttando i dati sulla espressione genica.
In particolare, il PC (Peter-Clark) è un miglioramento dell'algoritmo SGS, procedura generale per la scoperta relazioni causali, e trova le dipendenze condizionali di un grafico. Partendo da un grafico completo e non orientato, elimina in modo ricorsivo i bordi per i quali, alla luce delle informazioni in ingresso, si può dedurre un legame di indipendenza. Successivamente, si cerca di orientare i bordi rimanenti, cercando rapporti comuni con i nodi del grafo, e applicando un insieme di regole.
Il risultato è una rete di geni e rapporti, da cui il PC-IM estrae le sottoreti contenenti geni vecchi e nuovi.
3. Frequenze di calcolo
Le sotto-reti del passaggio precedente vengono usati per creare una lista unica di espansione dei geni, e la l’aspetto della frequenza viene calcolato per ciascun gene.
4. valutazione delle prestazioni interne
Il PC-IM valuta le prestazioni e stabilisce, attraverso il rapporto del LGN, la frequenza necessaria per avere le migliori espansioni. I possibili falsi positivi e falsi negativi sono calcolati studiando tre misure di valutazione: il valore predittivo positivo, la sensibilità e il tasso di falsi positivi. La precisione di recupero e la ricezione caratteristica di funzionamento sono costruiti, e il passo restituisce la frequenza più vicino ai valori ideali.
5. Applicazione frequenza di taglio
Secondo i calcoli delle frequenze, l'algoritmo decide quali geni della lista di espansione sono realmente legati alla LGN in ingresso, e possono quindi essere restituiti come output finale.
Il PC-IM è un algoritmo ancora in fase di sviluppo, ma i risultati preliminari mostrati robustezza e buone prestazioni nell'espansione GRN.






