Distributed DataMining

AMBITO: Matematica

STATO: CHIUSO

ATTACH: http://www.distributeddatamining.org/DistributedDataMining/

VOTO: ( 8 )

DistributedDataMining (dDM) è il nome di un progetto di ricerca che utilizza i computer connessi ad Internet per effettuare ricerche nei vari campi di Analisi dei dati e Machine Learning (apprendimento automatico).

Tutte le applicazioni di dDM utilizzano il framework open source RapidMiner. Questa suite di estrazione dati (sviluppata presso l'Università di Dortmund) fornisce vari metodi di machine learning (apprendimento automatico) che hanno come scopo l'analisi dei dati. Il framework RapidMinder fornisce un comodo plug-in che permette di aggiungere facilmente nuovi algoritmi sviluppati. Questa flessibilità e la potenza di elaborazione di BOINC è una base ideale per i progetti scientifici distribuiti di Data Mining. Il progetto dDM approfitta di questa opportunità e serve, come metaprogetto, diversi tipi di applicazioni di apprendimento automatico (machine learning).

Per ulteriori informazioni visitate il thread ufficiale presente nel nostro forum.

Time Series Analysis (Analisi Serie Temporali)

L'area di ricerca chiamata Analisi Serie Temporali (Time Series Analysis) comprende metodi per l'analisi dei dati delle serie temporali allo scopo di estrarre statistiche significative, regole e modelli. Queste regole e modelli potrebbero essere utilizzati per costruire modelli previsionali in grado di predire i futuri sviluppi.

Stock Price Prediction (Previsione prezzi della borsa) (attivo)

In questo caso di studio, cerchiamo di migliorare i metodi di previsione delle serie temporali. Nel 2006, abbiamo iniziato l'analisi dei dati della borsa utilizzando le reti neurali artificiali (Artificial Neural Networks) [5]. I risultati sono stati pubblicati in un libro [6]. Dopo, potremmo migliorare i nostri risultati applicando le macchine a vettori di supporto (Support Vector Machines) [7]. Nel 2009, abbiamo iniziato a sperimentare un algoritmo di apprendimento automatico per la costruzione di modelli previsionali per gl'indici Dow Jones, S&P500, tedesco e NIKKEI. In aggiunta, stiamo cercando di estendere gli approcci esistenti e sviluppare nuovi metodi di previsione. Con ciò, ci concentreremo sugli aspetti di evoluzione del modello temporale.

Leggi tutto

Medical Data Analysis (Analisi Dati Medici)

Nelle diagnosi cliniche delle condizioni patologiche del corpo umano, una varietà di sofisticate tecniche di esaminazione sono impiegate. Di solito, nei tempi clinici, la quantità di tempo disponibile per l'analisi e l'interpretazione dei dati acquisiti è limitata. Di conseguenza possono avvenire degli errori nelle diagnosi che possono avere gravi conseguenze sul paziente affetto. L'analisi dei dati medici e i sistemi di diagnosi assistite dai computer possono aiutare i medici, facilitando le loro decisioni cliniche e rilasciando un'indentificazione più affidabile delle alterazioni patologiche.

Laryngeal high-speed video classification (Classificazione video ad alta velocità della laringe) (attivo)

L'identificazione automatica dei disturbi della voce è uno dei particolari campi di interesse del lavoro di Daniel Voigt. Registrazioni audio del segnale acustico della voce sono analizzati con software specializzati nella quantificazione della quantità di perturbazione (rumore) nel segnale. Attraverso l'estrazione automatica delle caratteristiche dalle registrazioni e la seguente analisi di apprendimento automatico, modelli di movimento laringeo possono essere quantitativamente catturati e classificati automaticamente secondo le diverse classi di diagnosi. [8][9][10]

Leggi tutto

Social Network Analysis (Analisi dei Social Network)

Nel 2007, Tanja Falkowski propose DenGraph, un grafico di densità basato su un algoritmo di clustering. Questo algoritmo è utilizzabile per, tra le altre cose, le analisi dei Social Network (Social Network Analisys). I seguenti studi sono stati alimentati dal progetto distributeddatamining. I risultati sono pubblicati come parte della sua tesi di laurea che è anche disponibile come libro [1].

Temporal Dynamics of the Last.fm Music Platform (Dinamiche Temporali della piattaforma temporale Last.fm) (Finito)

In questo caso abbiamo applicato DenGraph-IO per rilevare e osservare i cambiamenti di comportamento nella musica ascoltata dagli utenti di Last.fm su un periodo di due anni. Lo scopo era di vedere, se la tecnica di clustering proposta rilevava significative comunità ed evoluzioni [2][3].
Leggi tutto
Temporal Evolution of Communities in the Enron Email Data Set (Evoluzione Temporale delle communità nel Data-set Email di Enron) (Finito)

Il collasso di Enron, una compagnia americana onorata per sei anni consecutivamente da Fortune come "Miglior compagnia innovativa d'America" (America's Most Innovative Company), causò uno dei più grandi casi di bancarotta della storia d'America. Per investigare nel caso, un data set di circa 1.5 milioni di e-mail spedite o ricevute dai dipendenti di Enron fu pubblicato dalla Federal Energy Regulator Commission (FERC - Commisione Federale Regolatore dell'Energia). Abbiamo utilizzato la potenza computazionale di dDM per analizzare l'evoluzione temporale delle communità estratte da queste e-mail di corrispondenza [4].
Leggi tutto

Referenze

Falkowski T. Community Analysis in Dynamic Social Networks. Goettingen: Sierke Verlag; 2009.
Schlitter N, Falkowski T. Mining the Dynamics of Music Preferences from a Social Networking Site. In: Proceedings of the 2009 International Conference on Advances in Social Network Analysis and Mining. Athens: IEEE Computer Society; 2009. p. 243-8.
Falkowski T, Schlitter N. Analyzing the Music Listening Behavior and its Temporal Dynamics Using Data from a Social Networking Site. Zurich; 2008.
Falkowski T. Community Analysis in Dynamic Social Networks. Goettingen: Sierke Verlag; 2009.
Schlitter N. A Case Study of Time Series Forecasting with Backpropagation Networks. In: Steinmüller J, Langner H, Ritter M, Zeidler J, editors. 15 Jahre Künstliche Intelligenz an der TU Chemnitz. Chemnitz: Techn. Univ. Chemnitz, Fak. für Informatik; 2008. p. 203-17. (Chemnitzer Informatik-Berichte).
Schlitter N. Analyse und Prognose ökonomischer Zeitreihen: Neuronale Netze zur Aktienkursprognose. Saarbrücken: VDM Verlag Dr. Müller; 2008.
Möller M, Schlitter N. Analyse und Prognose ökonomischer Zeitreihen mit Support Vector Machines. In: Steinmüller J, Langner H, Ritter M, Zeidler J, editors. 15 Jahre Künstliche Intelligenz an der Fakultät für Informatik. Chemnitz: Techn. Univ. Chemnitz, Fak. für Informatik; 2008. p. 189-201. (Chemnitzer Informatik-Berichte).
Voigt D. Objective Analysis and Classification of Vocal Fold Dynamics from Laryngeal High-Speed Recordings. Aachen: Shaker Verlag GmbH; 2010.
Voigt D, Döllinger M, Braunschweig T, Yang A, Eysholdt U, Lohscheller J. Classification of functional voice disorders based on phonovibrograms. Artificial Intelligence in Medicine. 2010;49(1):51-9.
Voigt D, Lohscheller J, Döllinger M, Yang A, Eysholdt U. Automatic diagnosis of vocal fold paresis by employing phonovibrogram features and machine learning methods. Comput Methods Programs Biomed. 2010;99(3):275-88.

Le serie temporali sono delle sequenze ordinate di punti di dati. Tipicamente si misurano in successivi spazi temporali in un intervallo di tempo uniforme. Esempi di serie temporali sono il volume annuale di acqua del fiume Nilo ad Assuan oppure il valore giornaliero di un titolo del mercato azionario.

L'area di ricerca chiamata "Analisi delle Serie Temporali" (Time Series Analysis) comprende metodi per l'analisi delle serie dati temporali allo scopo di estrarre statistiche significative, regole e modelli. Successivamente queste regole e modelli possono essere utilizzati per costruire modelli previsionali in grado di predire i futuri sviluppi. Nel caso volessimo predire futuri andamenti (es. aumento/decremento) dobbiamo risolvere un problema di Classificazione. Se cerchiamo di prevedere una serie temporale di punti (es. il Dow Jones raggiungerà i 12000 punti alla fine del prossimo mese) i dati rilevati con il data mining (tecnica estrattiva) sono chiamati Regressione.

In dDM usiamo diversi algoritmi di apprendimento automatico (machine learning) per trovare ed estrarre preziosi modelli allo scopo di costruire modelli previsionali. Gli algoritmi necessari sono integrati nel framework open-source di data mining RapidMiner che viene utilizzato per diversi compiti in dDM.

Per risolvere il problema della classificazione noi utilizziamo i seguenti algoritmi di apprendimento automatico: Decision Trees (Alberi di decisione), K-nearest Neighbours, Support Vector Machines (Macchine a vettori di supporto), Neural Networks (Reti Neurali). Inoltre Linear Regression (Regressione Lineare), Support Vector Machines, LeastMedSquare Regression e Logistic Base Regression sono utilizzati per costruire i modelli di regressione.

Stock Price Prediction (Previsione dei prezzi della borsa)

Stock Price Prediction è l'atto di provare a determinare il valore futuro delle azioni di una compagnia o altri strumenti finanziari quotati nei mercati finanziari. Alcuni ricercatori credono che i movimenti dei prezzi delle azioni siano governati dall'ipotesi di cammino casuale (Random Walk Hypothesis) e quindi sono imprevedibili. Altri sono in disaccordo e, quelli con questo punto di vista, possediono una miriade di metodi e tecnologie che presubilmente gli consentono di acquisire informazioni sul prezzo futuro.

Beh, ovviamente il fondatore di dDM è uno di quelli che credono nella possibilità di costruire sistemi di previsione di successo (altrimenti Stock Price Prediction non sarebbe trattato qui). In dDM utilizziamo il vantaggio dei metodi tecnologici allo scopo di costruire modelli previsionali. Ci focalizziamo sugli algoritmi di apprendimento automatico (machine learning) per scoprire ed estrarre validi modelli che potrebbero essere utili per predire lo sviluppo futuro del mercato.

Nel 2005, iniziamo il nostro lavoro motivati dall'approfondito libro di testo di Thorsten Poddig che introduce le basi delle previsioni dei prezzi della borsa (stock price prediction). Poddig presenta i fondamenti necessari e i metodi tipici in maniera completa. Inoltre, il libro [1] spiega tecniche ispirate alla natura come le reti neurali e gli algoritmi genetici che sono diventati popolari verso la fine degli anni '90.

Nel 2006 il nostro primo studio di previsione dei prezzi azionari è stato completato con successo. Abbiamo utilizzato una popolare combinazione di reti neurali artificiali e algortimi genetici per costruire modelli previsionali per l'indice di borsa tedesco e il Dow Jones. Visti i nostri promettenti risultati [2][3] abbiamo deciso di continuare i nostri sforzi in quest'area di ricerca.

Nel 2008 siamo giunti alla conclusione che sarebbe più efficiente usare un software standard di apprendimento automatico invece di implemetare i nostri approcci proprietari come avevamo fatto prima. Abbiamo approfittato della popolarità del framework LibSVM e pubblicato uno studio relativo all'utilizzo delle Macchine a vettori di supporto [4] nel campo della previsione dei prezzi della borsa. Le macchine a vettori di supporto superano i tipici problemi, delle reti neurali, di alta complessità computazionale. Le previsioni risultanti sono ugualmente impressionanti anche se i necessari costi computazionali possono diminuire significativamente.

Nel 2009 abbiamo esteso i nostri studi attraverso l'utilizzo di vari algoritmi di apprendimento al fine di determinare la capacità di previsione dei prezzi azionari. Abbiamo iniziato utilizzando la suite di data mining RapidMiner che fornisce diversi metodi di apprendimento automatico per scopi di analisi di dati. Il RapidMinder utilizza un comodo meccanismo di plug-in per aggiungere facilmente nuovi algoritmi sviluppati. Questa flessibilità e la potenza di elaborazione di BOINC è un ideale fondamento per il Data Mining scientifico distribuito.

Referenze:

Poddig T. Handbuch Kursprognose - Quantitative Methoden des Asset Managment. Bad Soden: Uhlenbruch Verlag; 1999.
Schlitter N. Analyse und Prognose ökonomischer Zeitreihen: Neuronale Netze zur Aktienkursprognose. Saarbrücken: VDM Verlag Dr. Müller; 2008.
Schlitter N. A Case Study of Time Series Forecasting with Backpropagation Networks. In: Steinmüller J, Langner H, Ritter M, Zeidler J, editors. 15 Jahre Künstliche Intelligenz an der TU Chemnitz. Chemnitz: Techn. Univ. Chemnitz, Fak. für Informatik; 2008. p. 203-17. (Chemnitzer Informatik-Berichte).
Möller M, Schlitter N. Analyse und Prognose ökonomischer Zeitreihen mit Support Vector Machines. In: Steinmüller J, Langner H, Ritter M, Zeidler J, editors. 15 Jahre Künstliche Intelligenz an der Fakultät für Informatik. Chemnitz: Techn. Univ. Chemnitz, Fak. für Informatik; 2008. p. 189-201. (Chemnitzer Informatik-Berichte).

Per le diagnosi cliniche di condizioni patologiche del corpo umano, una varietà di sofisticate tecniche sono implementate ai nostri giorni. Molti di questi approcci producono grandi quantità di immagini e dati di misura con elevate risoluzioni spaziali e/o temporali (es. MRI (immagini a risonanza magnetica), CT (tomografia computerizzata) ed ultrasuoni).
Ai fini di valutare correttamente questi dati per fini diagnostici, un certo grado di esperienza soggettiva è richiesta da parte del medico. Per motivi diversi, negli usuali tempi clinici la quantità di tempo disponibile per analizzare ed interpretare i dati acquisiti è litimitata. Di conseguenza, la mancata diagnosi può verificarsi, la quale può avere serie conseguenze sui pazienti affetti.

Per mezzo delle elaborazione delle immagini combinate con gli approcci dell'analisi dei dati, questo importante processo diagnostico può essere oggettivato ed automatizzato. Quindi, sistemi di diagnosi assista dal computer (Computer-Aided Diagnosis) possono essere forniti ai medici, facilitando le sue decisioni cliniche e portando ad un'identificazione più affidabile delle alterazioni patologiche.

Laryngeal high-speed video classification (Classificazione video ad alta velocità della laringe)

L'identificazione automatica dei disordini della voce è uno dei particolari campi di interesse del lavoro di Daniel Voigt. Registrazioni audio del segnale acustico della voce sono analizzate con software specializzati nel quantificare la quantità di perturbazione (rumore) nel segnale. Attraverso la funzione automatica di estrazione dalle registrazioni ed il successivo apprendimento automatico, gli schemi di movimento della laringe possono essere quantitativamente catturati ed automaticamente classificati secondo le diverse categorie diagnostiche.

Un particolare campo di interesse in questo contesto medico è il riconoscimento automatico dei disturbi vocali, con conseguente raucedine percepibile. Comunemente, per questo scopo, le registrazioni audio del segnale acustico vocale sono analizzate con software specializzati nel quantificare il disturbo (rumore) del segnale. Tuttavia, questo tipo di analisi acustica non consente la chiara attribuzione di determinati quadri clinici in una serie distinta di parametri di disturbo.

Un approccio per la diagnosi della voce consiste in un esame endoscopico della produzione del suono delle corde vocali nella laringe per mezzo di telecamere digitali ad alta velocità. Queste telecamere sono in grado di registrare i movimenti della laringe ad un frame rate di diverse migliaia di immagini al secondo consentendo l'analisi in tempo reale. Tuttavia, il compito di analizzare manualmente il video ad alta velocità risultante è lungo e soggetto a errori. Attraverso la funzione automatica di estrazione dalle registrazioni ed il successivo apprendimento automatico, gli schemi di movimento della laringe possono essere quantitativamente catturati ed automaticamente classificati secondo diverse categorie diagnostiche (es. funzionali od organici disfonie).

Attraverso l'infrastruttura distributedDataMining, abbiamo valutato un gran numero di paradigmi di apprendimento automatico (ad esempio macchine a vettori di supporto, Reti Neurali Artificiali) e le corrispondenti strategie di ottimizzazione dei parametri (ad esempio ricerca Grid, la strategia di Evolution, algoritmi genetici). Questa fase di valutazione preliminare ci ha permesso di individuare alcuni sistemi di apprendimento e parametri che sono particolarmente adatti per l'attività clinica di classificazione. Dettagli sulla metodologia proposta e dei risultati di classificazione ottenuti possono essere trovati in [1] , [2] e [3] .

Referenze

Voigt D. Objective Analysis and Classification of Vocal Fold Dynamics from Laryngeal High-Speed Recordings. Aachen: Shaker Verlag GmbH; 2010.
Voigt D, Döllinger M, Braunschweig T, Yang A, Eysholdt U, Lohscheller J. Classification of functional voice disorders based on phonovibrograms. Artificial Intelligence in Medicine. 2010;49(1):51-9.
Voigt D, Lohscheller J, Döllinger M, Yang A, Eysholdt U. Automatic diagnosis of vocal fold paresis by employing phonovibrogram features and machine learning methods. Comput Methods Programs Biomed. 2010;99(3):275-88.

Negli ultimi anni sempre più piattaforme di social network sono state create. Alcuni esempi importanti sono Facebook, Xing e LinkedIn. Il fornitore della piattaforma raccoglie una montagna di dati per ogni suo utente. Inolte informazioni personali come età, hobbies e carriera personale, ma anche le relazioni tra gli utenti sono raccolte. Conseguentemente, ogni piattaforma rappresenta una rete di utenti dove ogni utente può essere caratterizzato con proprietà specifiche. I collegamenti tra gli utenti possono avere diversi significati. Un significato molto comune è che due utenti sono collegati se si conoscono l'un l'altro. Ma anche altri tipi di relazione sono possibili: ad esempio nelle reti di interazione una connessione tra gli utenti è attivata quando avviene una comunicazione tra questi utenti (es. e-mail o telefono).

I dati nei social networks potrebbero contenere informazioni preziose. L'area di ricerca chiamata Social Network Analysis (Analisi dei Social Network) fornisce metodi per guadagnare queste informazioni. Per raggiungere questo scopo, per esempio metodi statistici e algoritmi grafici di clustering come EBC-clustering [1] sono stati proposti. Una raccomandabile introduzione nell'area delle analisi dei social network è fornita da Brandes e Erlebach [2].

Referenze:

Girvan M, Newman ME. Community structure in social and biological networks. PNAS. 2002;99:7821-6
Brandes U, Erlebach T. Network Analysis: Methodological Foundations. Springer; 2005.

Temporal Dynamics of the Last.fm Music Platform (Dinamiche temporali della piattaforma musicale Last.fm)

Last.fm è una piattaforma di social networking fondata nel 2002. Secondo Last.fm , la piattaforma ha più di 20 milioni di utenti sul sito ogni mese, sparsi in più di 200 paesi. Dopo che un utente si iscrive, Last.fm registra, tra le altre cose, tutti gli artisti che un utente ascolta, aggrega le informazioni ogni sette giorni e fornisce gli elenchi dei brani più ascoltati per ogni settimana per tutta la durata di un utente.
Usiamo queste informazioni per costruire un profilo utente estraendo i generi tra gli artisti più ascoltati. Il genere è determinato dal tag che i membri della comunità usano per caratterizzare l'artista. Noi rappresentiamo ogni utente come vertice di un grafico e gli utenti connessi con un bordo se la loro somiglianza del profilo raggiunge una soglia predefinita. La somiglianza è determinata calcolando la distanza tra coppie di vettori di genere utilizzando la misura del coseno di somiglianza.

Abbiamo scelto in modo casuale circa 600.000 utenti e ottenuto le classifiche settimanali in un periodo di 167 settimane (dal settembre 2005 al novembre 2008). Dal momento che molti utenti non sono attivi su base regolare, abbiamo scelto in modo casuale 2.000 utenti da questo insieme che sono stati attivi in almeno l'80% di tutti i periodi.

Abbiamo applicato il DenGraph-IO sul grafico risultante per rilevare e osservare l'evoluzione dei gruppi durante il periodo di osservazione di 115 settimane. L'obiettivo era quello di vedere se la tecnica di raggruppamento proposta rilevasse comunità significative ed evoluzioni [1] [2]. Nel seguito ci concentreremo su 5 settimane per analizzare il comportamento di ascolto della musica. Le dinamiche temporali e le transizioni di gruppo sono mostrate a destra.
Tutti e cinque i raggruppamenti consistono di una componente gigante e da sei a nove gruppi di diverse dimensioni. Pertanto, la dimensione media dei gruppi è molto elevata (126 membri). La componente di grandi dimensioni può essere spiegata con la struttura del set dati dell'utente: osserviamo una grande quantità di profili utente molto simili. Questi utenti hanno un vettore di profilo con un grosso peso nel genere indie, indie rock e alternative. Questo gruppo è molto forte su tutti gli intervalli e il numero dei membri varia solo leggermente per tutti i periodi. Oltre a questo gruppo, gruppi più piccoli di utenti con un comportamento di ascolto diverso vengono rilevati. Le visualizzazioni grafiche e una descrizione più dettagliata dei cinque raggruppamenti sono indicati sotto.

Nella settimana n°8 del 2007, nove gruppi vengono rilevati. Il più grande gruppo è il gruppo indie. Inoltre, i gruppi che rappresentano i sei principali generi vengono visualizzati: l'indie, l'hip-hop, il metal, l'industrial, il j-pop/j-rock e il rock. Inoltre, un piccolo gruppo viene rilevato ed è etichettato con i tag che vengono utilizzati anche per le etichette di tre altri gruppi (punk, metal, rock). Con uno di questi gruppi (indie) esiste una sovrapposizione e bordi di uscita anche per gli altri due gruppi (rock, pop e metal). Questo indica una vicinanza del gruppo agli altri tre gruppi e, infatti, nel successivo intervallo una fusione di questo gruppo con uno degli altri gruppi può essere osservata.

Nella settimana n°9 del 2007, si è verificata una fusione di punk, metal, rock con il più grande gruppo del metal. Un gruppo di piccole dimensioni (pop, R & B, soul) è stato rimosso. Alcuni membri del gruppo pop rock si sono divisi in un gruppo di rock che si sovrappone con il gruppo indie. Gli altri cinque gruppi (indie, industrial, hip-hop, j-pop, ed elettronica) sono immutati.

Dalla settimana n°9 del 2007 alla n°10 del 2007 avvengono tre gruppi sono rimossi: due dei gruppi rimossi appariranno nuovamente nel successivo intervallo (elettronica e rock) ed il gruppo che è etichettato con il rock e pop non è rilevato nei periodi successivi. Inoltre, una divisione del gruppo j-pop, j-rock è osservabile. Si divide in tre gruppi in realtà: un gruppo j-pop e due gruppi j-rock sovrapposti (che verranno uniti nell'intervallo successivo).

Nella settimana n°13 del 2007 sono rilevati dieci gruppi. Otto di loro sono stati scoperti nei periodi precedenti e due sono nuovi. Entrambi i due nuovi gruppi sono il risultato di una divisione. Il gruppo industrial, elettronico si divide in un gruppo industrial, rock e in un gruppo industrial, pop. La seconda divisione riguarda il gruppo del metal dove un piccolo gruppo di metal, rock si separa dal gruppo metal più grande.

A partire dalla settimana n°13 del 2007 fino alla n°14 del 2007 hanno luogo una divisione, una unione e una rimozione. I due gruppi industrial si sono fusi in uno unico e il gruppo elettronic viene rimosso. Dal gruppo del metal due grandi gruppi si sono separati. Un gruppo è etichettato metal, heavy metal, rock e il secondo gruppo è etichettato con il tag punk, metal, un gruppo già osservato nella settimana n°8/2007 che si è fuso nella settimana n°9/2007 con il gruppo del metal più grande. Inoltre, il gruppo metal, rock, alternative non ha più una sovrapposizione con il gruppo metal.

Referenze

Schlitter N, Falkowski T. Mining the Dynamics of Music Preferences from a Social Networking Site. In: Proceedings of the 2009 International Conference on Advances in Social Network Analysis and Mining. Athens: IEEE Computer Society; 2009. p. 243-8
Falkowski T, Schlitter N. Analyzing the Music Listening Behavior and its Temporal Dynamics Using Data from a Social Networking Site. Zurich; 2008.

Temporal Evolution of Communities in the Enron Email Data Set (Evoluzione temporale delle Comunità nell'Enron Email Data Set) - Progetto finito)

Il crollo della Enron, una società statunitense esaltata in sei anni consecutivi da "Fortune" come "America's Most Innovative Company", è stato uno dei casi più grande di fallimento nella storia degli Stati Uniti. Per esaminare il caso, un set di dati di circa 1,5 milioni di e-mail inviati o ricevuti dai dipendenti della Enron è stato pubblicato dalla FERC, la Commissione federale di regolamentazione dell'energia.

Abbiamo analizzato l'interazione dei dipendenti Enron basate sui dati delle loro e-mail, che consistono di circa 245,000 messaggi inviati da gennaio 2000 a marzo 2002. Come previsto, il grafico interazionale, che rappresenta lo scambio di e-mail tra individui, mostra una bassa densità, una distribuzione asimmetrica verso destra e una distanza media breve tra i vertici (effetto micromondo). Queste misure indicano che il grafico ha una struttura a gruppi. Inoltre, poiché il data-set comprende le interazioni di posta elettronica per un periodo di circa tre anni, è particolarmente adatto per l'analisi delle evoluzioni sottografo.

Per avere una prima impressione, abbiamo applicato DenGraph sul grafico delle interazione delle e-mail. Come previsto, i parametri ε e η hanno un'alta influenza sull'esito del DenGraph-clustering. Abbiamo scelto la combinazione di parametri che ha dato le migliori prestazioni di gruppo e/o una modularità ottimale. Tuttavia, il rapporto tra rumore e il numero di gruppi sono importanti indicatori che non devono essere trascurati.

In seguito, abbiamo fatto un'analisi dell'evoluzione temporale delle comunità riconosciute nel grafico Enron. Per questo, abbiamo generato interazioni grafiche su periodi di tempo specifici e applicato DenGraph per osservare l'evoluzione del sottografo temporale basato sulle statistiche ed i grafici del gruppo. Il numero di gruppi individuati varia per tutti i grafici. Osserviamo che i valori di modularità ponderata e non sono in generale comparabili. Come previsto, la modularità non comparata è nella maggior parte dei casi inferiore alla ponderata. Il coefficiente di raggruppamento oscilla leggermente intorno ad un valore medio di 0.4. Inoltre, può essere osservata una correlazione tra il numero di spigoli e il numero di aggiornamenti: quando si aumenta il numero di bordi, il numero di aggiornamenti positivi aumenta pure seguiti, solitamente, da un periodo con un più elevato numero di aggiornamenti negativi. Pertanto, fluttuazioni nel numero degli spigoli è il risultato di fluttuazioni nel numero di aggiornamenti. In alcuni intervalli si vede una correlazione tra il numero di aggiornamenti positivi e il numero di divisioni. Lo stesso vale per il numero di aggiornamenti negativi e il numero di divisioni: il numero di divisioni aumenta quando molti bordi vengono persi.

Stato del progetto: progetto attivo

Iscrizione libera.

Requisiti minimi: nessuno

Gli sviluppatori non segnalano requisiti minimi da rispettare.

Screensaver: non disponibile

Assegnazione crediti: variabili in base al tempo di elaborazione

Quorum = 2 (se è >1 le WU dovranno essere convalidate confrontando i risultati con quelli di altri utenti).

Applicazioni e WU disponibili: vedi scheda "Link"

Cliccare sulle icone relative alle "Applicazioni"

e allo "Stato del server"

Sistemi operativi supportati: vedi scheda "Info tecniche"

Dati specifici sull'elaborazione: vedi scheda "Info tecniche"

Per ottenere dati sulla durata media dell'elaborazione, la RAM necessaria e la dead line, consultare la scheda "Info tecniche" qui a destra. Per informazioni particolareggiate (specifiche per applicazione e sistema operativo, intervallo di backup e crediti assegnati) rifarsi alla pagina dei risultati del progetto WUprop@home.

Problemi comuni: nessuno

Non si riscontrano problemi significativi.

Supporto al progetto: supportato

Per unirsi al team BOINC.Italy consultare la scheda "Link" qui a destra cliccando sull'icona relativa al "JOIN"