Technological advancements in artificial intelligence models have led to the development of Foundation Models, an advanced class of machine learning models capable of interpreting instructions written in natural language and providing appropriate outputs. Foundation Models encompass various categories, such as Large Language Models (LLMs) and Large Vision Models (LVMs), which typically combine only one type of data, text for LLMs and images for LVMs, respectively. This thesis specifically explores Multimodal Large Language Models (MLLMs), models that, leveraging the pre-existing knowledge of LLMs and LVMs, manage to integrate texts, images, and audio data into a single system. This integration offers an innovative perspective on how these models can enhance human-machine interaction. Through a meticulous analysis, the work describes the characteristics, applications, and challenges of MLLMs, highlighting their potential and future implications.

I progressi tecnologici nei modelli di intelligenza artificiale hanno portato allo sviluppo dei Foundation Models, una classe avanzata di modelli di apprendimento automatico in grado di interpretare istruzioni scritte in linguaggio naturale e fornire un adeguato output. I Foundation Models includono diverse categorie come ad esempio i Large Language Models (LLMs) e i Large Vision Models (LVMs), che solitamente combinano solo un tipo di dato, testo rispettivamente per i LLMs e immagini per i LVMs. Questa tesi esplora, in particolare, i Multimodal Large Language Models (MLLMs), modelli che, sfruttando le conoscenze pregresse dei LLMs e LVMs, riescono ad integrare in un unico sistema testi, immagini e dati audio, offrendo una prospettiva innovativa su come questi modelli siano in grado di migliorare l'interazione umana con le macchine. Attraverso un'attenta analisi, il lavoro descrive le caratteristiche, applicazioni e sfide dei MLLMs, evidenziando il loro potenziale e implicazioni future.

Multimodal Large Language Models: stato dell'arte e applicazioni

BORDIN, LUCA
2023/2024

Abstract

Technological advancements in artificial intelligence models have led to the development of Foundation Models, an advanced class of machine learning models capable of interpreting instructions written in natural language and providing appropriate outputs. Foundation Models encompass various categories, such as Large Language Models (LLMs) and Large Vision Models (LVMs), which typically combine only one type of data, text for LLMs and images for LVMs, respectively. This thesis specifically explores Multimodal Large Language Models (MLLMs), models that, leveraging the pre-existing knowledge of LLMs and LVMs, manage to integrate texts, images, and audio data into a single system. This integration offers an innovative perspective on how these models can enhance human-machine interaction. Through a meticulous analysis, the work describes the characteristics, applications, and challenges of MLLMs, highlighting their potential and future implications.
2023
Multimodal Large Language Models: State of the Art and their Applications
I progressi tecnologici nei modelli di intelligenza artificiale hanno portato allo sviluppo dei Foundation Models, una classe avanzata di modelli di apprendimento automatico in grado di interpretare istruzioni scritte in linguaggio naturale e fornire un adeguato output. I Foundation Models includono diverse categorie come ad esempio i Large Language Models (LLMs) e i Large Vision Models (LVMs), che solitamente combinano solo un tipo di dato, testo rispettivamente per i LLMs e immagini per i LVMs. Questa tesi esplora, in particolare, i Multimodal Large Language Models (MLLMs), modelli che, sfruttando le conoscenze pregresse dei LLMs e LVMs, riescono ad integrare in un unico sistema testi, immagini e dati audio, offrendo una prospettiva innovativa su come questi modelli siano in grado di migliorare l'interazione umana con le macchine. Attraverso un'attenta analisi, il lavoro descrive le caratteristiche, applicazioni e sfide dei MLLMs, evidenziando il loro potenziale e implicazioni future.
MLLMs
Large Language Model
Foundation Models
File in questo prodotto:
File Dimensione Formato  
Bordin_Luca.pdf

accesso aperto

Dimensione 1.24 MB
Formato Adobe PDF
1.24 MB Adobe PDF Visualizza/Apri

The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12608/67611