Clustering con reti neurali multistrato. Un'analisi di fattibilità su dati astronomici.

This thesis aims to compare three widely used clustering methods, namely k-means, hierarchical clustering (h-clust), and neural networks, to determine which method performs better in clusterizing variable stars in the Hipparcos dataset. Clustering variable stars is an important area of research in astronomy, as it helps identify and group stars that exhibit variations in brightness over time. These brightness variations can provide valuable insights into the nature and evolution of stars. The k-means method is one of the most commonly used clustering approaches, based on dividing observations into k distinct clusters. Hierarchical clustering, on the other hand, groups stars in a hierarchical manner, creating a tree-like structure of clusters. Lastly, neural networks offer a more flexible approach, where machine learning models are trained to recognize patterns present in the data. In this thesis, the three clustering methods will be implemented and evaluated using the R programming language. Various evaluation metrics, such as the Silhouette index and the accuracy of assigned cluster labels, will be considered. The obtained results from the comparison of clustering methods will be presented and analyzed. The quality of clustering, cluster separation, and the ability to correctly identify variable stars in the Hipparcos dataset will be assessed. Through this comparative study, we hope to determine which clustering method best suits the characteristics of variable stars and can provide a solid foundation for further astronomical research in the field of stellar brightness variation.

La presente tesi si propone di confrontare tre metodi di clustering ampiamente utilizzati, ovvero il k-means, l'hierarchical clustering (h-clust) e le reti neurali, al fine di determinare quale metodo si adatta meglio alla clusterizzazione delle stelle variabili presenti nel dataset Hipparcos. Il clustering delle stelle variabili è un'importante area di ricerca nell'astronomia, in quanto aiuta a identificare e raggruppare le stelle che mostrano variazioni di luminosità nel corso del tempo. Queste variazioni di luminosità possono fornire preziose informazioni sulla natura e l'evoluzione delle stelle. Il metodo k-means è uno dei più comuni nell'ambito del clustering e si basa sulla suddivisione delle osservazioni in k cluster distinti. L'hierarchical clustering, invece, raggruppa le stelle in modo gerarchico, creando una struttura ad albero di cluster. Infine, le reti neurali offrono un approccio più flessibile, in cui i modelli di apprendimento automatico sono addestrati per riconoscere i pattern presenti nei dati. Nell'ambito di questa tesi, verranno implementati e valutati i tre metodi di clustering utilizzando il linguaggio di programmazione R. Verranno prese in considerazione diverse metriche di valutazione, come l'indice di Silhouette e l'accuratezza delle etichette assegnate ai cluster. I risultati ottenuti dalla comparazione dei metodi di clustering saranno presentati e analizzati. Sarà considerata la qualità della clusterizzazione, la separazione dei cluster e la capacità di rilevare correttamente le stelle variabili presenti nel dataset Hipparcos. Attraverso questo studio comparativo, si spera di determinare quale metodo di clustering si adatta meglio alle peculiarità delle stelle variabili e può fornire una base solida per ulteriori ricerche astronomiche nel campo della variazione di luminosità stellare.