Indice articoli

Valutazione attuale: 5 / 5

Stella attivaStella attivaStella attivaStella attivaStella attiva
 
banner_datamining




Temporal Evolution of Communities in the Enron Email Data Set (Evoluzione temporale delle Comunità nell'Enron Email Data Set) - Progetto finito)

 

Il crollo della Enron, una società statunitense esaltata in sei anni consecutivi da "Fortune" come "America's Most Innovative Company", è stato uno dei casi più grande di fallimento nella storia degli Stati Uniti. Per esaminare il caso, un set di dati di circa 1,5 milioni di e-mail inviati o ricevuti dai dipendenti della Enron è stato pubblicato dalla FERC, la Commissione federale di regolamentazione dell'energia.

enrongraph

Abbiamo analizzato l'interazione dei dipendenti Enron basate sui dati delle loro e-mail, che consistono di circa 245,000 messaggi inviati da gennaio 2000 a marzo 2002. Come previsto, il grafico interazionale, che rappresenta lo scambio di e-mail tra individui, mostra una bassa densità, una distribuzione asimmetrica verso destra e una distanza media breve tra i vertici (effetto micromondo). Queste misure indicano che il grafico ha una struttura a gruppi. Inoltre, poiché il data-set comprende le interazioni di posta elettronica per un periodo di circa tre anni, è particolarmente adatto per l'analisi delle evoluzioni sottografo.

enron epsilon eta

Per avere una prima impressione, abbiamo applicato DenGraph sul grafico delle interazione delle e-mail. Come previsto, i parametri ε e η hanno un'alta influenza sull'esito del DenGraph-clustering. Abbiamo scelto la combinazione di parametri che ha dato le migliori prestazioni di gruppo e/o una modularità ottimale. Tuttavia, il rapporto tra rumore e il numero di gruppi sono importanti indicatori che non devono essere trascurati.





enron evolution

In seguito, abbiamo fatto un'analisi dell'evoluzione temporale delle comunità riconosciute nel grafico Enron. Per questo, abbiamo generato interazioni grafiche su periodi di tempo specifici e applicato DenGraph per osservare l'evoluzione del sottografo temporale basato sulle statistiche ed i grafici del gruppo. Il numero di gruppi individuati varia per tutti i grafici. Osserviamo che i valori di modularità ponderata e non sono in generale comparabili. Come previsto, la modularità non comparata è nella maggior parte dei casi inferiore alla ponderata. Il coefficiente di raggruppamento oscilla leggermente intorno ad un valore medio di 0.4. Inoltre, può essere osservata una correlazione tra il numero di spigoli e il numero di aggiornamenti: quando si aumenta il numero di bordi, il numero di aggiornamenti positivi aumenta pure seguiti, solitamente, da un periodo con un più elevato numero di aggiornamenti negativi. Pertanto, fluttuazioni nel numero degli spigoli è il risultato di fluttuazioni nel numero di aggiornamenti. In alcuni intervalli si vede una correlazione tra il numero di aggiornamenti positivi e il numero di divisioni. Lo stesso vale per il numero di aggiornamenti negativi e il numero di divisioni: il numero di divisioni aumenta quando molti bordi vengono persi.

Accedi per commentare