Evidence-Grounded Evaluation of Materials Science Knowledge Graph

The exponential growth of scientific literature has created a pressing need for automated meth- ods capable of extracting and validating domain knowledge reliably and transparently. This thesis presents an evidence-grounded framework for verifying structured scientific facts ex- tracted from Atomic Layer Deposition (ALD) literature. Although large language models can extract candidate facts from scientific papers, these outputs must be validated against the origi- nal source text before they can be used in downstream scientific analysis. To support trustwor- thy verification, the proposed framework separates evidence extraction from evaluation and grounds each judgment in verbatim textual evidence retrieved from the corresponding paper. The methodology combines dataset preparation with a two-stage retrieval-and-judgment pipeline. Full-text papers and GPT-generated factual annotations from the AWASES-ALD dataset are first normalized, validated, and aligned through a common identifier. Evidence ex- traction is then performed using a hybrid approach that ranks candidate sentences through TF–IDF similarity and verifies them with a large language model, returning either verbatim supporting evidence or an explicit “no direct evidence found” outcome. In the evaluation stage, a second model assesses each fact–evidence pair using a structured schema that assigns a support category (direct, partial, or none) together with relevance and accuracy scores. Four extractor–evaluator configurations were examined across proprietary and open-source model families: GPT-4/GPT-3.5 and Llama-3.1-8B/Qwen2.5-7B. Experiments were conducted on a subset of 141 AWASES-ALD papers containing 2,195 ex- tracted facts. Results show that all configurations can retrieve and evaluate evidence at scale but differ in calibration. The Llama–Qwen configuration achieved the highest evidence re- trieval coverage, while proprietary configurations produced higher proportions of direct sup- port and more stable evaluator behavior. Evaluator reliability was further assessed on a human- annotated ZnO dataset containing 327 fact–evidence pairs, where all models successfully rec- ognized true support relationships, with GPT-3.5 achieving the highest direct agreement. Overall, the thesis demonstrates that evidence-grounded verification improves the transparency and reliability of automated scientific fact validation. By combining sentence-level provenance, structured LLM judgments, controlled model comparisons, and external benchmarking, the proposed framework provides a scalable approach for evaluating materials-science facts and supporting knowledge-graph quality assurance.

La crescita esponenziale della letteratura scientifica richiede metodi automatizzati capaci di es- trarre e validare conoscenza di dominio in modo affidabile e trasparente. Questa tesi presenta un framework basato su evidenza testuale per la verifica di fatti scientifici strutturati estratti dalla letteratura sull’Atomic Layer Deposition (ALD). Sebbene i modelli linguistici di grandi dimensioni possano estrarre fatti candidati dagli articoli scientifici, tali risultati devono essere verificati rispetto al testo originale prima di poter essere utilizzati in analisi scientifiche succes- sive. Per garantire una verifica affidabile, il framework proposto separa l’estrazione dell’evidenza dalla fase di valutazione e basa ogni giudizio su evidenze testuali riportate verbatim dai docu- menti di origine. La metodologia combina la preparazione del dataset con una pipeline di recupero e valu- tazione articolata in due fasi. I testi completi degli articoli e le annotazioni fattuali generate automaticamente nel dataset AWASES-ALD vengono normalizzati, validati e allineati tramite un identificatore comune. L’estrazione dell’evidenza viene quindi effettuata mediante un ap- proccio ibrido che classifica le frasi candidate tramite similarità TF–IDF e utilizza un modello linguistico per verificarne la rilevanza rispetto al fatto considerato, restituendo frasi di supporto riportate verbatim oppure una risposta esplicita di assenza di evidenza (“no direct evidence found”). Nella fase di valutazione, un secondo modello analizza ogni coppia fatto–evidenza attraverso uno schema strutturato che assegna una categoria di supporto (direct, partial op- pure none) insieme a punteggi di rilevanza e accuratezza. Sono state analizzate quattro config- urazioni di modelli estrattore–valutatore appartenenti sia alla famiglia proprietaria sia a quella open source: GPT-4/GPT-3.5 e Llama-3.1-8B/Qwen2.5-7B. Gli esperimenti sono stati condotti su un sottoinsieme di 141 articoli del corpus AWASES- ALD contenente 2.195 fatti estratti. I risultati mostrano che tutte le configurazioni sono in grado di recuperare e valutare evidenze su larga scala, ma presentano differenze nella calibrazione delle decisioni. La configurazione Llama–Qwen ha raggiunto la copertura più elevata nel re- cupero dell’evidenza, mentre le configurazioni proprietarie hanno mostrato una maggiore pro- porzione di supporto diretto e un comportamento valutativo più stabile. L’affidabilità dei mod- elli valutatori è stata inoltre analizzata utilizzando un dataset ZnO annotato manualmente con- tenente 327 coppie fatto–evidenza, nel quale tutti i modelli hanno riconosciuto relazioni di supporto reali, con GPT-3.5 che ha ottenuto il più alto tasso di accordo diretto. Nel complesso, la tesi dimostra che un approccio di verifica basato su evidenza testuale migliora la trasparenza e l’affidabilità della validazione automatica di fatti scientifici. Combinando prove- nienza testuale a livello di frase, giudizi strutturati LLM, confronti tra modelli e benchmark esterni, il framework proposto offre un approccio scalabile per la valutazione di fatti nella let- teratura della scienza dei materiali e per il supporto alla qualità dei knowledge graph scientifici.