Benchmarking of cell-type deconvolution methods for nonhuman bulk transcriptomics

The quantification of the cellular composition of complex tissues provides insights into complex phenomenons such as disease progression and response to treatment. Deconvolution methods are computational techniques that allow estimating cell-type fractions from bulk RNA sequencing (RNA-seq) data using cell-type-specific signatures. Extensively validated and widely applied in the field of cancer immunology, these "first-generation" methods are designed for the deconvolution of human RNA-seq data. Recently, “second-generation” deconvolution methods that can be trained using annotated single-cell RNA-seq data have been developed. These methods allow, in principle, the deconvolution of any cell type and organisms for which scRNA-seq data is available. However, their applicability to the deconvolution of nonhuman transcriptomic has been only partly investigated. The objective of this thesis is to evaluate the accuracy of in silico deconvolution applied to nonhuman transcriptomics, using mouse RNA-seq data as test case. To this end, we first conducted a review to identify the different types of deconvolution algorithms. We implemented an R-based, user-friendly interface to access three major classes of deconvolution methods: based on mouse signatures, on human signatures extended to mouse data analysis through orthologues-mapping, or on single-cell RNA-seq data (namely, second-generation). We performed a systematic benchmarking of these methods on real mouse RNA-seq data, as well as on “pseudo-bulk” RNA-seq data generated with a newly developed simulator. We showed that mouse-deconvolution methods can accurately quantify different immune-cell types in various mouse tissues. In addition, we proved that human-deconvolution methods can be effectively extended to mouse data to leverage their complementarities. Second-generation methods showed more diverse results, with only a few tools that achieved good performance in different scenarios. A more extensive benchmarking is required for this class of methods in order to clarify their performance with different sets of training data and parameter settings. The computational tools developed in this thesis and collaborative project will be key to comprehensively benchmark second-generation methods in the near future.

Quantificare la composizione cellulare di un tessuto complesso permette di avere una visione dettagliata della dinamica di fenomeni come l'evoluzione di uno stato patologico o la risposta ad un trattamento. I metodi di deconvoluzione sono una classe di algoritmi che permette di stimare le frazioni dei vari tipi cellulari da dati di “bulk RNA sequencing” (RNA-seq), tramite una matrice di signatures genetiche. Questi metodi di "prima generazione", diffusi in immuno-oncologia, sono stati sviluppati e testati con dati RNA-seq umani. Recentemente sono stati introdotti nuovi metodi, detti di "seconda generazione", che possono essere "allenati" usando dei dati single-cell RNA-seq annotati. La loro applicaiblità a dati non umani non è stata però verificata in modo estensivo. L'obbiettivo di questo lavoro di tesi è di verificare l'accuratezza della deconvoluzione su dati non umani, e più in particolare su dati RNA-seq di topo. A tal fine abbiamo condotto uno studio bibliografico dei vari metodi di deconvoluzione. Abbiamo poi implementato un'interfaccia R per semplificare l'accesso a tre principali categorie di metodi: basati su signatures per topo, signature umane estese al topo tramite mapping dei geni ortologi, o su dati single-cell RNA-seq (metodi di seconda generazione). Abbiamo poi condotto un benchmarking di questi metodi su trascrittomi di topo reali e artificiali, generati tramite un simulatore sviluppato ad hoc. Abbiamo dimostrato che i metodi di deconvoluzione per topo possono quantificare in modo accurato molti tipi cellulari del sistema immunitario in diversi tessuti. Inoltre, abbiamo dimostrato che i metodi sviluppati per dati umani possono essere estesi ai dati murini così da poterne sfruttare i vantaggi. I metodi di seconda generazione hanno invece dei risultati più diversificati, e solo alcuni di questi ottengono buone performance nei vari dataset.Un benchmarking più estensivo è necessario per analizzare la robustezza di questi metodi al variare delle caratteristiche dei dati per il training o dei diversi parametri. Gli strumenti computazionali sviluppati in questa tesi e nel progetto in cui si inserisce saranno essenziali a questo fine.