The growth of digital services has brought new challenges for short-term rental platforms like Airbnb, which are increasingly facing fraudulent activities. Fraud can take many forms, such as fake listings or manipulated reviews. That’s why it’s crucial to have effective detection systems that can spot suspicious patterns or anomalies in the available data. In this context, both statistical analysis and modern machine learning techniques are useful tools to tackle the problem, ensuring a safe experience for users while also being cost-effective for the company. This work aims to explore and apply statistical classification methods that can help detect and prevent fraud on platforms like the one studied here. The first chapter provides a brief overview of the scams happening on Airbnb, then introduces the dataset used for the analysis. This is followed by an exploratory analysis aimed at preliminarily identifying the most relevant variables for fraud detection. The second chapter covers the classification methods used and the metrics for evaluating their performance. Since each method relies on certain assumptions about the data, the third chapter takes a closer look at how these models behave through a simulation study in scenarios where those assumptions are not respected. Finally, the fourth chapter applies the models to the dataset, aiming to predict fraud in each listing. It also examines both the predictive ability of each model and the influence of certain variables on the probability of fraud.
L’espansione dei servizi digitali ha portato con sé nuove sfide per le piattaforme di affitto a breve termine, come Airbnb, che si trovano sempre più esposte ad attività fraudolente. Le frodi possono manifestarsi in diverse forme, tra cui la creazione di annunci falsi o la manipolazione delle recensioni. Risulta fondamentale quindi implementare sistemi di rilevamento efficaci, in grado di identificare pattern sospetti o anomalie nei dati a disposizione. In questo contesto, l’analisi statistica, come anche le emergenti tecniche di apprendimento automatico, si rivelano strumenti utili per arginare il fenomeno, garantendo un processo sicuro per gli utenti e contemporaneamente sostenibile in termini economici per l’azienda. Il presente elaborato si pone l’obiettivo di analizzare e applicare i metodi di classificazione statistica che possono essere utilizzati per l’individuazione e la prevenzione delle frodi su piattaforme come quella presa in esame. Nel primo capitolo, dopo una breve panoramica sul contesto delle truffe su Airbnb, verrà presentato il dataset utilizzato per l’analisi, a cui farà seguito un’analisi esplorativa volta ad identificare preliminarmente le variabili più rilevanti per l’individuazione delle frodi. Il secondo capitolo descriverà i metodi di classificazione impiegati e le metriche utilizzate per valutarne le prestazioni. Poiché ogni metodo comporta assunzioni teoriche sulla natura dei dati, il terzo capitolo approfondirà, tramite uno studio di simulazione, il comportamento dei vari modelli in scenari in cui tali ipotesi sono violate. Infine, nel quarto capitolo, i modelli verranno applicati al dataset di riferimento con l’obiettivo di modellare la presenza di frodi per ogni annuncio. In particolare, si analizzeranno sia la capacità predittiva di ciascun modello, sia l’influenza di determinate variabili sulla probabilità di frode.
Metodi di classificazione per la rilevazione di frodi nelle inserzioni Airbnb
NICOLI, LORENZO
2024/2025
Abstract
The growth of digital services has brought new challenges for short-term rental platforms like Airbnb, which are increasingly facing fraudulent activities. Fraud can take many forms, such as fake listings or manipulated reviews. That’s why it’s crucial to have effective detection systems that can spot suspicious patterns or anomalies in the available data. In this context, both statistical analysis and modern machine learning techniques are useful tools to tackle the problem, ensuring a safe experience for users while also being cost-effective for the company. This work aims to explore and apply statistical classification methods that can help detect and prevent fraud on platforms like the one studied here. The first chapter provides a brief overview of the scams happening on Airbnb, then introduces the dataset used for the analysis. This is followed by an exploratory analysis aimed at preliminarily identifying the most relevant variables for fraud detection. The second chapter covers the classification methods used and the metrics for evaluating their performance. Since each method relies on certain assumptions about the data, the third chapter takes a closer look at how these models behave through a simulation study in scenarios where those assumptions are not respected. Finally, the fourth chapter applies the models to the dataset, aiming to predict fraud in each listing. It also examines both the predictive ability of each model and the influence of certain variables on the probability of fraud.| File | Dimensione | Formato | |
|---|---|---|---|
|
Nicoli_Lorenzo.pdf
accesso aperto
Dimensione
718.89 kB
Formato
Adobe PDF
|
718.89 kB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/88534