AUTONOMOUS GAUSSIAN DECOMPOSITION

Per i Big Data una grande soluzione

Fra pochi anni lo Square Kilometre Array sarà completato e gli astronomi avranno a che fare con una grande quantità di dati che le antenne, costruite in Sudafrica e Australia, raccoglieranno già dal 2020. Per analizzarli in maniera efficiente è stato messo a punto un nuovo approccio

Fra tre anni dovrebbe iniziare la costruzione del tanto atteso Square Kilometre Array (SKA), il più grande network di radiotelescopi al mondo che avrà un campo di vista di oltre un chilometro quadrato quando sarà completato. Strumenti molto potenti (SKA in particolare lavorerà fra qualche anno in un range di frequenze che va da 50 MHz a 14 GHz) in grado di raccogliere un enorme (e dicendo enorme si intende davvero mastodontica) quantità di dati: le antenne dello Square Kilometre Array (che verranno posizionate in Sudafrica e in Australia Occidentale) genereranno una quantità di dati da 10 a 100 volte il traffico internet mondiale. Gli astronomi e gli ingegneri, nella fase di progettazione di simili strutture, devono anche pensare a come sarà possibile elaborare questo fiume in piena di dati generati su stelle, galassie e nubi di idrogeno.

Rappresentazione artistica di tutti gli strumenti SKA. Crediti: SKA Organisation

Rappresentazione artistica di tutti gli strumenti SKA. Crediti: SKA Organisation

Come si può leggere in un recente studio pubblicato sull’ultimo numero di The Astronomical Journal, un team di scienziati dell’Università Wisconsin-Madison ha sviluppato un algoritmo per analizzare tutti queste informazioni. Si tratta di Autonomous Gaussian Decomposition (AGD), un approccio nuovo e veloce che permetterà di risparmiare tempo nell’elaborazione dati nei supercomputer. Con l’elaborazione automatizzata, «improvvisamente non siamo più limitati dal tempo», ha affermato Robert Lindner, che ha eseguito lo studio.

Man mano che si va avanti con la progettazione di un progetto della portata di SKA (il più grande del 21esimo secolo che dovrebbe dare i primi risultati scientifici dal 2020 in poi), «ci sono tutte queste discussioni su ciò che ci accingiamo a fare con i dati», ha aggiunto Londer. «Non abbiamo abbastanza server per memorizzare tutti i dati. Noi non abbiamo nemmeno abbastanza elettricità per alimentare questi server. E nessuno ha una chiara idea di come elaborare questa marea di dati in modo da poter dar loro un senso». Come detto, tra gli obiettivi scientifici dei radiotelescopi c’è quello di studiare le nubi di idrogeno, che possono sembrare meno appariscenti, ad esempio, delle galassie in via di formazione. Ma l’idrogeno è fondamentale per comprendere il cosmo essendo, infatti, l’elemento più comune esistente e anche il gas alla base della formazione di stelle e galassie. Linder ha lavorato all’algoritmo con Snežana Stanimirović, che studia come si formano le nubi di idrogeno per poi diventare stelle, plasmando l’evoluzione delle galassie come la nostra Via Lattea.

Per molti aspetti, la quantità di dati sull’idrogeno provenienti dalle numerose antenne SKA sarà simile a quella proveniente dai radiotelescopi esistenti, ma sarà decisamente più veloce. L’unità più piccola, o pixel, memorizzerà ogni bit di informazioni sull’idrogeno che occupa ogni porzione di cielo osservato da SKA. Si tratta di antenne «molto più sensibili dei radiotelescopi di oggi, e quindi il metodo di analisi utilizzato in passato è impossibile da utilizzare», ha spiegato Linder. Analizzare ogni pixel richiede 20 o 30 minuti di lavoro utilizzando i migliori modelli e software esistenti. E quante ore di lavoro ci vorranno per interpretare i dati sull’idrogeno provenienti dai milioni di pixel catturati da SKA con il suo ampio campo di vista?

La soluzione è proprio questo nuovo approccio studiato dal team di ricercatori: in pochi secondi i supercomputer potranno analizzare l’enorme quantità di pixel e dati. Il ricercatore Carlos Vera-Ciro ha aiutato a scrivere il software che potrebbe aiutare a capire quante nubi di idrogeno si nascondono dietro ogni pixel. Il software ora gira su una rete di supercomputer presso la UW-Madison chiamata HTCondor. I primi test sono stati effettuati mettendo a paragone il lavoro del supercomputer con quello di una ricercatrice che ha analizzato i dati “a mano”: il risultato è che il nuovo sistema inghiottirà i dati di SKA e sarà sufficientemente accurato da poter sostituire lavorazione manuale.

Ma lo Square Kilometre Array non verrà puntato solo verso le nubi di idrogeno. Stelle e galassie sono altrettanto importanti per gli astronomi. Linder ha spiegato: «Stiamo cercando di capire le condizioni iniziali della formazione stellare – come, dove, quando è iniziata? Come si fa a sapere che una stella sta per formarsi qui e non da un’altra parte?». Correlando i dati sulle nubi di idrogeno nella Via Lattea con quelli sulle stelle in via di formazione , i modelli cosmologici attuali verranno radicalmente aggiornati se non superati. Gli esperti hanno come primo obiettivo la Via Lattea perché «è ciò che possiamo osservare con maggiore risoluzione – ha aggiunto Linder -, ma quando gli astronomi si spingono verso zone più distanti nell’Universo hanno bisogno di dare per certe le loro conoscenze su gas e formazione stellare, e la Via Lattea è l’unico posto dove possiamo ottenere numeri simili».

Per saperne di più:

Leggi lo studio pubblicato su The Astronomical Journal: “Autonomous Gaussian Decomposition”, di Robert R. Lindner, Carlos Vera-Ciro, Claire E. Murray, Snežana Stanimirović, Brian Babler, Carl Heiles, Patrick Hennebelle, W. M. Goss e John Dickey