Zero-Shot Entity Disambiguation via Cross-Encoder Fine-Tuning on an Ad-Hoc Contrastive Dataset

Entity Disambiguation is a fundamental challenge in Information Retrieval, critical for correctly mapping textual mentions to specific real-world identities. While traditional approaches often rely on extensive knowledge bases or entity-specific retraining, these methods struggle to generalize to emerging entities or highly ambiguous homonyms without continuous supervision. This thesis proposes a Zero-Shot Entity Disambiguation framework capable of correctly identifying unseen entities by learning a generalized verification skill rather than memorizing static entity facts. This thesis leverages a Cross-Encoder architecture, exploiting its deep cross-attention mechanism to capture fine-grained semantic relationships between a query and a candidate document. To enable zero-shot transfer, a novel Ad-Hoc Contrastive Dataset generation pipeline is introduced. This pipeline constructs training samples using a structured four-class strategy: Positives, Semantic Negatives (competitors), Lexical Negatives (homonyms), and Random Noise. Crucially, a Query Enrichment mechanism is implemented, it transforms entity labels into discriminative, fact-dense descriptions, converting the disambiguation task from simple keyword matching to semantic fact verification. The proposed framework was evaluated on a strictly isolated hold-out test set to measure its generalization capabilities. Experimental results demonstrate a transformative performance lift compared to non-fine-tuned baselines, with the BGE-Reranker and DeBERTa-v3 models achieving F1-score increases of 22.43\% and 66.06\% respectively. Most notably, the fine-tuning process resulted in a recall explosion, reaching scores as high as 96.97\%. These findings confirm that the Contextual Evidence Alignment strategy is highly effective for industrial compliance screening, proving that a model can successfully resolve entirely novel entities by treating disambiguation as a logical alignment problem.

La Disambiguazione delle Entità (Entity Disambiguation) rappresenta una sfida fondamentale nel campo dell'Information Retrieval, essendo cruciale per mappare correttamente le menzioni testuali a specifiche identità del mondo reale. Sebbene gli approcci tradizionali si basino spesso su vaste basi di conoscenza o sul riaddestramento specifico per ogni entità, tali metodi faticano a generalizzare verso entità emergenti o omonimi altamente ambigui senza una supervisione continua. Questa tesi propone un framework di Zero-Shot Entity Disambiguation in grado di identificare correttamente entità mai viste in precedenza, apprendendo una capacità di verifica generalizzata invece di memorizzare fatti statici sulle entità. Il lavoro proposto in questa tesi utilizza un'architettura Cross-Encoder, sfruttando il suo meccanismo di cross-attention profonda per catturare relazioni semantiche granulari tra una query e un documento candidato. Per consentire il trasferimento zero-shot, viene introdotta un'innovativa pipeline di generazione di Dataset Contrastivi Ad-Hoc. Tale pipeline costruisce campioni di addestramento utilizzando una strategia strutturata a quattro classi: Positivi, Negativi Semantici (competitor), Negativi Lessicali (omonimi) e Rumore Casuale (Random Noise). Fondamentalmente, è stato implementato un meccanismo di Query Enrichment che trasforma le etichette delle entità in descrizioni discriminanti e ricche di fatti, convertendo il compito di disambiguazione da un semplice confronto di parole chiave a una verifica semantica dei fatti. Il framework proposto è stato valutato su un test set "hold-out" rigorosamente isolato per misurarne le capacità di generalizzazione. I risultati sperimentali dimostrano un incremento trasformativo delle prestazioni rispetto alle baseline non ottimizzate, con i modelli BGE-Reranker e DeBERTa-v3 che hanno ottenuto aumenti dell'F1-score rispettivamente del 22,43\% e del 66,06\%. In particolare, il processo di fine-tuning ha portato a un'esplosione della recall, raggiungendo punteggi fino al 96,97\%. Questi risultati confermano che la strategia di Contextual Evidence Alignment è altamente efficace per lo screening di compliance industriale, dimostrando che un modello può risolvere con successo entità del tutto nuove trattando la disambiguazione come un problema di allineamento logico. We leverage a BERT-based Cross-Encoder architecture, exploiting its deep cross-attention mechanism to capture fine-grained semantic relationships between a query and a candidate document. To enable zero-shot transfer, we introduce a novel Ad-Hoc Contrastive Dataset generation pipeline. This pipeline constructs training samples using a structured four-class strategy: Positives, Semantic Negatives (competitors), Lexical Negatives (homonyms), and Random Noise. Crucially, we implement a Query Enrichment mechanism that transforms entity labels into discriminative, fact-dense descriptions, converting the disambiguation task from simple keyword matching to semantic fact verification.