This thesis analyzes the lyrics of Italian popular songs through techniques of text mining and statistical analysis. The study considers the best-selling Italian-language singles in Italy for each year from 1950 to 2024. Using the Genius API and web scraping from online archives, the corresponding lyrics were retrieved and subsequently cleaned with R libraries, with particular attention to noise removal, stopword filtering, and linguistic normalization. The result is an original dataset comprising 1,449 Italian song lyrics. The research demonstrates the effectiveness of quantitative tools and text analysis algorithms in describing and comparing song lyrics, providing a statistical perspective on Italian popular culture that complements linguistic and musicological approaches. Among the applied methods are sentiment analysis, topic modeling, dimensionality reduction techniques, and measures of lexical richness and diversity. Special attention is devoted to the diachronic study of changes in vocabulary and thematic content in Italian music, which emerge as an integrated outcome of the various analyses, outlining a quantitative portrait of the country’s cultural and social transformations.

L'elaborato analizza testi della canzone italiana attraverso tecniche di text mining e analisi statistica. Sono stati considerati i singoli in lingua italiana più venduti in Italia per anno, dal 1950 al 2024. Tramite API Genius e web scraping da archivi online, ne sono stati ricavati i testi. Questi sono stati successivamente puliti mediante librerie R, con particolare attenzione alla rimozione di rumore e stop-word ed alla normalizzazione linguistica. Il risultato è un dataset originale comprendente 1449 testi di canzoni italiane. Lo studio mostra l'efficacia di strumenti quantitativi e algoritmi di analisi testuale nel descrivere e confrontare testi di canzoni, offrendo un punto di vista statistico sulla cultura popolare italiana, complementare rispetto ad un approccio linguistico e musicologico. Tra i metodi utilizzati si citano sentiment analysis, topic modeling, tecniche di riduzione dimensionale, misure di diversità e ricchezza lessicale. Particolare attenzione è posta sullo studio diacronico dell'evoluzione di lessico e contenuti della musica italiana, che emerge come risultato integrato delle diverse analisi condotte, delineando nel complesso un ritratto quantitativo delle trasformazioni culturali e sociali del Paese.

Da Nilla Pizzi a Sfera Ebbasta: text mining e analisi statistica di settant'anni di canzone italiana.

VALLI, ANDREA
2024/2025

Abstract

This thesis analyzes the lyrics of Italian popular songs through techniques of text mining and statistical analysis. The study considers the best-selling Italian-language singles in Italy for each year from 1950 to 2024. Using the Genius API and web scraping from online archives, the corresponding lyrics were retrieved and subsequently cleaned with R libraries, with particular attention to noise removal, stopword filtering, and linguistic normalization. The result is an original dataset comprising 1,449 Italian song lyrics. The research demonstrates the effectiveness of quantitative tools and text analysis algorithms in describing and comparing song lyrics, providing a statistical perspective on Italian popular culture that complements linguistic and musicological approaches. Among the applied methods are sentiment analysis, topic modeling, dimensionality reduction techniques, and measures of lexical richness and diversity. Special attention is devoted to the diachronic study of changes in vocabulary and thematic content in Italian music, which emerge as an integrated outcome of the various analyses, outlining a quantitative portrait of the country’s cultural and social transformations.
2024
From Nilla Pizzi to Sfera Ebbasta: Text Mining and Statistical Analysis on Seventy Years of Italian Songs.
L'elaborato analizza testi della canzone italiana attraverso tecniche di text mining e analisi statistica. Sono stati considerati i singoli in lingua italiana più venduti in Italia per anno, dal 1950 al 2024. Tramite API Genius e web scraping da archivi online, ne sono stati ricavati i testi. Questi sono stati successivamente puliti mediante librerie R, con particolare attenzione alla rimozione di rumore e stop-word ed alla normalizzazione linguistica. Il risultato è un dataset originale comprendente 1449 testi di canzoni italiane. Lo studio mostra l'efficacia di strumenti quantitativi e algoritmi di analisi testuale nel descrivere e confrontare testi di canzoni, offrendo un punto di vista statistico sulla cultura popolare italiana, complementare rispetto ad un approccio linguistico e musicologico. Tra i metodi utilizzati si citano sentiment analysis, topic modeling, tecniche di riduzione dimensionale, misure di diversità e ricchezza lessicale. Particolare attenzione è posta sullo studio diacronico dell'evoluzione di lessico e contenuti della musica italiana, che emerge come risultato integrato delle diverse analisi condotte, delineando nel complesso un ritratto quantitativo delle trasformazioni culturali e sociali del Paese.
text mining
sentiment analysis
topic modeling
canzone italiana
cultura italiana
File in questo prodotto:
File Dimensione Formato  
Valli_Andrea.pdf

accesso aperto

Dimensione 1.53 MB
Formato Adobe PDF
1.53 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/99009