This thesis focuses on language detection and text classification for efficient language processing tasks. The aim is to develop robust models that can accurately identify the language of a given text and classify it into relevant categories. The research explores different approaches and techniques to achieve optimal performance in both language detection and text classification. For language detection, a comparative analysis of various models, including FastText [36], Spacy[17], and Cybozu [41], is conducted. The results show that the fastest model performs exceptionally well, especially when combined with a hybrid solution. The hybrid approach leverages the model’s predictions only when the text contains more than 15 characters, below that threshold a dictionary check is performed. Regarding text classification, the study delves into the development of a reliable model. The thesis includes the implementation and the fine-tune of several models, including baseline models and more complex like SVM, LSTM [16], StartSpace[53] and BERT [9]. This thesis propose an SVM-based hybrid model. The hybrid model incorporates user feedback in the classification process, particularly when the model’s confidence level falls below 50%. This user-driven approach enhances the classification accuracy and provides flexibility in scenarios where the model’s confidence may be lower. The experiments and evaluations conducted demonstrate the effectiveness of the proposed solutions in language detection and text classification tasks. The achieved results highlight the practical applicability and performance improvements obtained through the hybrid approaches. The research contributes to the advancement of language processing techniques and provides valuable insights for future developments in the field.

Questa tesi si concentra sul rilevamento della lingua e sulla classificazione del testo per processare al meglio il linguaggio naturale. L'obiettivo è quello di sviluppare modelli robusti che possano essere precisi ed accurati nel identificare la lingua di un dato testo e classificarlo in categorie pertinenti. La ricerca esplora diversi approcci e tecniche per ottenere risultati ottimali sia nel rilevamento della lingua che nella classificazione del testo. Per il rilevamento della lingua, viene eseguita un'analisi comparativa di vari modelli, tra cui FastText [36], Spacy[17], e Cybozu [41]. I risultati mostrano che FastText si comporta eccezionalmente bene, in termini di velocità e accuratezza, soprattutto se combinato con una soluzione ibrida. L'approccio ibrido sfrutta le previsioni del modello solo quando il testo contiene più di 15 caratteri, al di sotto di tale soglia si attua un controllo nel dizionario. Per quanto riguarda la classificazione del testo, lo studio approfondisce lo sviluppo di un modello affidabile che abbia il giusto equilibrio tra risorse utilizzate ed efficienza. La tesi comprende l'implementazione e la messa a punto di diversi modelli, compresi i modelli base e più complessi come SVM, LSTM [16], StartSpace[53] e BERT [9]. Questa tesi propone un sistema ibrido basato sulla SVM. Il modello ibrido incorpora il feedback degli utenti nel processo di classificazione, in particolare quando la probabilità del modello scende al di sotto del 50%. Questo approccio orientato all'utente migliora l'accuratezza della classificazione e fornisce flessibilità in scenari in cui la confidenza del modello potrebbe essere inferiore. Gli esperimenti e le valutazioni condotte dimostrano l'efficacia della soluzione proposta per entrambi i modelli implementati. I risultati raggiunti evidenziano l'applicabilità pratica ei miglioramenti prestazionali ottenuti attraverso gli approcci ibridi. La ricerca contribuisce al progresso delle tecniche di elaborazione del linguaggio e fornisce spunti preziosi per futuri sviluppi nel campo.

Implementazione di modelli IA per la categorizzazione dei Ticket e per l'identificazione della lingua: Analisi dei dati mirata al miglioramento della qualità del servizio e dell'esperienza utente

FREGONA, FRANCESCO
2022/2023

Abstract

This thesis focuses on language detection and text classification for efficient language processing tasks. The aim is to develop robust models that can accurately identify the language of a given text and classify it into relevant categories. The research explores different approaches and techniques to achieve optimal performance in both language detection and text classification. For language detection, a comparative analysis of various models, including FastText [36], Spacy[17], and Cybozu [41], is conducted. The results show that the fastest model performs exceptionally well, especially when combined with a hybrid solution. The hybrid approach leverages the model’s predictions only when the text contains more than 15 characters, below that threshold a dictionary check is performed. Regarding text classification, the study delves into the development of a reliable model. The thesis includes the implementation and the fine-tune of several models, including baseline models and more complex like SVM, LSTM [16], StartSpace[53] and BERT [9]. This thesis propose an SVM-based hybrid model. The hybrid model incorporates user feedback in the classification process, particularly when the model’s confidence level falls below 50%. This user-driven approach enhances the classification accuracy and provides flexibility in scenarios where the model’s confidence may be lower. The experiments and evaluations conducted demonstrate the effectiveness of the proposed solutions in language detection and text classification tasks. The achieved results highlight the practical applicability and performance improvements obtained through the hybrid approaches. The research contributes to the advancement of language processing techniques and provides valuable insights for future developments in the field.
2022
Leveraging AI models for Ticket Classification and Language Detection: A Data Analysis Approach to Improving Service Quality and Customer Experience
Questa tesi si concentra sul rilevamento della lingua e sulla classificazione del testo per processare al meglio il linguaggio naturale. L'obiettivo è quello di sviluppare modelli robusti che possano essere precisi ed accurati nel identificare la lingua di un dato testo e classificarlo in categorie pertinenti. La ricerca esplora diversi approcci e tecniche per ottenere risultati ottimali sia nel rilevamento della lingua che nella classificazione del testo. Per il rilevamento della lingua, viene eseguita un'analisi comparativa di vari modelli, tra cui FastText [36], Spacy[17], e Cybozu [41]. I risultati mostrano che FastText si comporta eccezionalmente bene, in termini di velocità e accuratezza, soprattutto se combinato con una soluzione ibrida. L'approccio ibrido sfrutta le previsioni del modello solo quando il testo contiene più di 15 caratteri, al di sotto di tale soglia si attua un controllo nel dizionario. Per quanto riguarda la classificazione del testo, lo studio approfondisce lo sviluppo di un modello affidabile che abbia il giusto equilibrio tra risorse utilizzate ed efficienza. La tesi comprende l'implementazione e la messa a punto di diversi modelli, compresi i modelli base e più complessi come SVM, LSTM [16], StartSpace[53] e BERT [9]. Questa tesi propone un sistema ibrido basato sulla SVM. Il modello ibrido incorpora il feedback degli utenti nel processo di classificazione, in particolare quando la probabilità del modello scende al di sotto del 50%. Questo approccio orientato all'utente migliora l'accuratezza della classificazione e fornisce flessibilità in scenari in cui la confidenza del modello potrebbe essere inferiore. Gli esperimenti e le valutazioni condotte dimostrano l'efficacia della soluzione proposta per entrambi i modelli implementati. I risultati raggiunti evidenziano l'applicabilità pratica ei miglioramenti prestazionali ottenuti attraverso gli approcci ibridi. La ricerca contribuisce al progresso delle tecniche di elaborazione del linguaggio e fornisce spunti preziosi per futuri sviluppi nel campo.
AI models
NLP
Deep Learning
BERT
File in questo prodotto:
File Dimensione Formato  
Fregona_Francesco.pdf

accesso aperto

Dimensione 25.73 MB
Formato Adobe PDF
25.73 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/46924