Deviations from model assumptions, along with the presence of a certain amount of outlying observations, are common in many practical statistical applications. Clustering techniques make no exception, yet some caution is required in this context. First, small clusters could be mistaken for outlying observations, or viceversa. Second, the concept of outlier itself shall be defined with respect to a cluster, rather than the entire data set, and depends on the considered notion of cluster. While robust methods have been proposed in both distance- and model-based clustering, the issue has been largely neglected in the modal framework. Here, clusters are associated to the domains of attraction of the modes of the density underlying data. Nonparametric methods, usually employed for density (and hence modes) estimation, are known to be vulnerable to the presence of outliers, and prone to the sparsity of data in high dimensions, as much of the probability mass is lead to flow to the tails of the density, possibly giving rise to the birth of spurious modes. Robustness issues are discussed in this framework, and suitable measures to flag outliers are explored, especially with a view on trimming methods for modal clustering.

In molte applicazioni pratiche in ambito statistico sono comuni deviazioni dalle assunzioni del modello nonché la presenza di un certo numero di osservazioni anomale. Le tecniche di clustering non fanno eccezione, ma in questo contesto è richiesta ulteriore attenzione. Piccoli cluster potrebbero essere scambiati per osservazioni anomale, e viceversa. Inoltre, il concetto stesso di osservazione anomala deve essere definito relativamente and un cluster, e non rispetto all'intero dataset. Mentre vari metodi robusti sono stati proposti nel clustering basato sulla distanza o nel clustering parametrico, il problema è stato largamente trascurato nell'ambito del clustering modale. I metodi non parametrici, spesso usati per la stima della densità (e delle mode), sono noti per essere vulnerabili alla presenza di outliers che potrebbero provocare la nascita di mode spurie. I problemi di robustezza sono discussi in questa situazione. Sono inoltre esplorate misure per la ricerca e per il trimming di osservazioni anomale nel clustering modale.

Procedure robuste nel Clustering Modale: alcuni approfondimenti

RUDELLI, MARCO
2021/2022

Abstract

Deviations from model assumptions, along with the presence of a certain amount of outlying observations, are common in many practical statistical applications. Clustering techniques make no exception, yet some caution is required in this context. First, small clusters could be mistaken for outlying observations, or viceversa. Second, the concept of outlier itself shall be defined with respect to a cluster, rather than the entire data set, and depends on the considered notion of cluster. While robust methods have been proposed in both distance- and model-based clustering, the issue has been largely neglected in the modal framework. Here, clusters are associated to the domains of attraction of the modes of the density underlying data. Nonparametric methods, usually employed for density (and hence modes) estimation, are known to be vulnerable to the presence of outliers, and prone to the sparsity of data in high dimensions, as much of the probability mass is lead to flow to the tails of the density, possibly giving rise to the birth of spurious modes. Robustness issues are discussed in this framework, and suitable measures to flag outliers are explored, especially with a view on trimming methods for modal clustering.
2021
Robust procedures in Modal Clustering: some insights
In molte applicazioni pratiche in ambito statistico sono comuni deviazioni dalle assunzioni del modello nonché la presenza di un certo numero di osservazioni anomale. Le tecniche di clustering non fanno eccezione, ma in questo contesto è richiesta ulteriore attenzione. Piccoli cluster potrebbero essere scambiati per osservazioni anomale, e viceversa. Inoltre, il concetto stesso di osservazione anomala deve essere definito relativamente and un cluster, e non rispetto all'intero dataset. Mentre vari metodi robusti sono stati proposti nel clustering basato sulla distanza o nel clustering parametrico, il problema è stato largamente trascurato nell'ambito del clustering modale. I metodi non parametrici, spesso usati per la stima della densità (e delle mode), sono noti per essere vulnerabili alla presenza di outliers che potrebbero provocare la nascita di mode spurie. I problemi di robustezza sono discussi in questa situazione. Sono inoltre esplorate misure per la ricerca e per il trimming di osservazioni anomale nel clustering modale.
Clustering modale
Robustezza
Outliers
File in questo prodotto:
File Dimensione Formato  
Rudelli_Marco.pdf

accesso aperto

Dimensione 2.8 MB
Formato Adobe PDF
2.8 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/39227