Foundation Models (FMs) are large-scale deep learning models trained on vast datasets that can be fine-tuned for specific tasks. While a well-known example is ChatGPT, based on Large Language Models (LLMs), this concept is rapidly gaining traction in Earth Observation (EO). However, EO FMs face unique challenges due to the complexity, heterogeneity, and diversity of remote sensing data (multispectral imagery, multimodal sensory and temporal data). Traditional EO models are typically designed and trained ad hoc for single data types or applications (e.g., land cover classification from RGB images or change detection from SAR data), limiting their ability to generalize to new data or regions without costly retraining. In contrast, EO FMs are pre-trained on a massive, diverse repertoire of EO datasets to learn robust representations of the physical world. Following this pre-training, they can be efficiently fine-tuned on smaller, task-specific datasets, ensuring both versatility and efficiency. The present study focused on exploring and applying these innovative approaches by developing two primary research enues. The first involved Computer Vision (CV) applications, creating a Road Markings Seg- Segmentation Pipeline to assess the generalization of EO FMs. These models were fine-tuned and applied to the novel task of pixel-accurate segmentation of road markings in Very High Resolution satellite imagery. The second avenue focused on Natural Language Processing (NLP) applications, engineering a specialized AI Agent for risk analysis to process meteorological and geospatial data for disasters like wildfires and floods. This agent leverages a Near-RT API, an advanced RAG architecture and Tool Calling to ensure timely information access. This work demonstrates the efficacy of FMs in overcoming traditional EO modeling limitations, paving the way for more adaptable and responsive systems in both visual analysis and advanced geospatial information management.
I modelli di fondazione (FM) sono modelli di apprendimento profondo addestrati su larga scala che possono essere ottimizzati per compiti specifici. Sebbene un esempio ben noto sia ChatGPT, basato su modelli linguistici di grandi dimensioni (LLM), questo concetto sta rapidamente diffondendosi nell'osservazione della Terra (EO). Tuttavia, gli EO FM devono affrontare sfide uniche a causa della complessità, dell'eterogeneità e della diversità dei dati di telerilevamento (immagini multispettrali, dati sensoriali multimodali e temporali). I modelli EO tradizionali sono in genere progettati e addestrati ad hoc per singoli tipi di dati o applicazioni (ad esempio, classificazione della copertura del suolo da immagini RGB o rilevamento dei cambiamenti da dati SAR), limitando la loro capacità di generalizzare a nuovi dati o regioni senza un costoso riaddestramento. Al contrario, gli EO FM sono pre-addestrati su un repertorio massiccio e diversificato di set di dati EO per apprendere rappresentazioni robuste del mondo fisico. Dopo questo pre-addestramento, possono essere ottimizzati in modo efficiente su set di dati più piccoli e specifici per determinate attività, garantendo sia versatilità che efficienza. Il presente studio si è concentrato sull'esplorazione e l'applicazione di questi approcci innovativi sviluppando due principali linee di ricerca. Il primo ha riguardato le applicazioni di visione artificiale (CV), creando una pipeline di segmentazione della segnaletica orizzontale per valutare la generalizzazione dei modelli EO FM. Questi modelli sono stati ottimizzati e applicati al nuovo compito di segmentazione con precisione al pixel della segnaletica orizzontale nelle immagini satellitari ad altissima risoluzione. La seconda linea di ricerca si è concentrata sulle applicazioni di elaborazione del linguaggio naturale (NLP), progettando un agente AI specializzato per l'analisi dei rischi in grado di elaborare dati meteorologici e geospaziali relativi a disastri quali incendi boschivi e inondazioni. Questo agente sfrutta un'API Near-RT, un'architettura RAG avanzata e la funzione Tool Calling per garantire un accesso tempestivo alle informazioni. Questo lavoro dimostra l'efficacia degli FM nel superare i limiti della modellazione EO tradizionale, aprendo la strada a sistemi più adattabili e reattivi sia nell'analisi visiva che nella gestione avanzata delle informazioni geospaziali.
Modelli di fondazione per l'osservamento della Terra e le applicazioni geospaziali
VIRZI', DANIELE
2024/2025
Abstract
Foundation Models (FMs) are large-scale deep learning models trained on vast datasets that can be fine-tuned for specific tasks. While a well-known example is ChatGPT, based on Large Language Models (LLMs), this concept is rapidly gaining traction in Earth Observation (EO). However, EO FMs face unique challenges due to the complexity, heterogeneity, and diversity of remote sensing data (multispectral imagery, multimodal sensory and temporal data). Traditional EO models are typically designed and trained ad hoc for single data types or applications (e.g., land cover classification from RGB images or change detection from SAR data), limiting their ability to generalize to new data or regions without costly retraining. In contrast, EO FMs are pre-trained on a massive, diverse repertoire of EO datasets to learn robust representations of the physical world. Following this pre-training, they can be efficiently fine-tuned on smaller, task-specific datasets, ensuring both versatility and efficiency. The present study focused on exploring and applying these innovative approaches by developing two primary research enues. The first involved Computer Vision (CV) applications, creating a Road Markings Seg- Segmentation Pipeline to assess the generalization of EO FMs. These models were fine-tuned and applied to the novel task of pixel-accurate segmentation of road markings in Very High Resolution satellite imagery. The second avenue focused on Natural Language Processing (NLP) applications, engineering a specialized AI Agent for risk analysis to process meteorological and geospatial data for disasters like wildfires and floods. This agent leverages a Near-RT API, an advanced RAG architecture and Tool Calling to ensure timely information access. This work demonstrates the efficacy of FMs in overcoming traditional EO modeling limitations, paving the way for more adaptable and responsive systems in both visual analysis and advanced geospatial information management.| File | Dimensione | Formato | |
|---|---|---|---|
|
Master_Thesis_Virzi_Daniele.pdf
accesso aperto
Dimensione
18.76 MB
Formato
Adobe PDF
|
18.76 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/102141