L'object recognition è un task particolarmente importante nella robotica autonoma, vista la potenzialità delle videocamere come sensori, sopratutto in relazione all'interazione con l'ambiente esterno. In questo contesto la saliency detection rappresenta il primo passo per direzionare l'attenzione su una porzione dell'immagine analizzata, dove dovrebbe trovarsi un candidato oggetto, prima che ci sia un tentativo di identificazione. E' quindi comprensibile quanto questo passaggio sia rilevante per i tempi di esecuzione di un algoritmo di object recognition, in quanto una cattiva fase di object detection comporta un inutile lavoro nel tentativo di riconoscimento di oggetti laddove non ve ne sia alcuno. Storicamente il modello seguito per l'ideazione di un algoritmo di saliency detection prende le mosse dalla visione umana, dallo studio dell'interazione occhiocervello e dei meccanismi fisiologici ad essa collegati. Una volta chiarito il funzionamento della visione umana, e formalizzato nella FIT (Features Integration Theory), tale tecnica è stata implementata tramite filtri lineari, nel dominio dello spazio, e si basa sul concetto di features. Successivamente si è passati ad un approccio basato sulla teoria dei segnali, tramite trasformata di Fourier bidimensionale, metodo conosciuto come spectral residual. Questo approccio in frequenza, oltre a dare risultati paragonabili a quelli nel dominio dello spazio, risulta enormemente più veloce. Un ulteriore miglioramento delle performance di questa seconda tecnica si è avuto constatando che uguali saliency map si ottengono utilizzando soltanto lo spettro di fase, rendendo superfluo il calcolo delle ampiezze. Tale evidenza sperimentale è avvalorata da considerazioni sul contenuto spettrale dei punti salienti di una qualsiasi forma d'onda. Dal punto di vista dell'affidabilità dei risultati si è fatto un ulteriore passo in avanti tramite l'utilizzo dei quaternioni, e la definizione una trasformata di Fourier per tale campo. I quaternioni sono un tipo di numero, evoluzione dei complessi, ma con quattro componenti anzichè due. Tramite i quaternioni si è quindi sviluppata una terza tecnica, operante in frequenza, ma integrata con la FIT, che pur essendo ancora in fase di sperimentazione ha grandissime potenzialità. Infatti, il quaternione, è composto da quattro features, portando quindi molta più informazione di una semplice immagine, a fronte di tempi computazionali competitivi. Si è quindi implementato un algoritmo di saliency detection tramite quaternioni e trasformata di fase, distinguendosi dalla letteratura sulla scelta di una delle features utilizzate. L'approccio sviluppato, infatti, in vece di una componente legata al movimento riscontrato fra due frame ravvicinati, utilizza una depth map. Per la realizzazione di tale mappa delle distanze si è utilizzata una stereocamera, che per ogni frame acquisisce immagine destra e sinistra. Dalla differenza tra tali immagini, previa conoscenza dei parametri di calibrazione, si calcola la distanza di ogni pixel. Tale immagine risultante è pregna di significato per la nostra applicazione, in quanto, oltre a differenziare le parti dell'immagine aventi distanza relativa, da un'indicazione precisa sul volume di eventuali oggetti in primo piano. I risultati così ottenuti sono notevoli, tanto per la qualità dei risultati, quanto per i tempi di esecuzione
Rilevamento delle salienze visuali per identificazione di oggetti con robot mobili autonomi
Toffolati, Matteo
2011/2012
Abstract
L'object recognition è un task particolarmente importante nella robotica autonoma, vista la potenzialità delle videocamere come sensori, sopratutto in relazione all'interazione con l'ambiente esterno. In questo contesto la saliency detection rappresenta il primo passo per direzionare l'attenzione su una porzione dell'immagine analizzata, dove dovrebbe trovarsi un candidato oggetto, prima che ci sia un tentativo di identificazione. E' quindi comprensibile quanto questo passaggio sia rilevante per i tempi di esecuzione di un algoritmo di object recognition, in quanto una cattiva fase di object detection comporta un inutile lavoro nel tentativo di riconoscimento di oggetti laddove non ve ne sia alcuno. Storicamente il modello seguito per l'ideazione di un algoritmo di saliency detection prende le mosse dalla visione umana, dallo studio dell'interazione occhiocervello e dei meccanismi fisiologici ad essa collegati. Una volta chiarito il funzionamento della visione umana, e formalizzato nella FIT (Features Integration Theory), tale tecnica è stata implementata tramite filtri lineari, nel dominio dello spazio, e si basa sul concetto di features. Successivamente si è passati ad un approccio basato sulla teoria dei segnali, tramite trasformata di Fourier bidimensionale, metodo conosciuto come spectral residual. Questo approccio in frequenza, oltre a dare risultati paragonabili a quelli nel dominio dello spazio, risulta enormemente più veloce. Un ulteriore miglioramento delle performance di questa seconda tecnica si è avuto constatando che uguali saliency map si ottengono utilizzando soltanto lo spettro di fase, rendendo superfluo il calcolo delle ampiezze. Tale evidenza sperimentale è avvalorata da considerazioni sul contenuto spettrale dei punti salienti di una qualsiasi forma d'onda. Dal punto di vista dell'affidabilità dei risultati si è fatto un ulteriore passo in avanti tramite l'utilizzo dei quaternioni, e la definizione una trasformata di Fourier per tale campo. I quaternioni sono un tipo di numero, evoluzione dei complessi, ma con quattro componenti anzichè due. Tramite i quaternioni si è quindi sviluppata una terza tecnica, operante in frequenza, ma integrata con la FIT, che pur essendo ancora in fase di sperimentazione ha grandissime potenzialità. Infatti, il quaternione, è composto da quattro features, portando quindi molta più informazione di una semplice immagine, a fronte di tempi computazionali competitivi. Si è quindi implementato un algoritmo di saliency detection tramite quaternioni e trasformata di fase, distinguendosi dalla letteratura sulla scelta di una delle features utilizzate. L'approccio sviluppato, infatti, in vece di una componente legata al movimento riscontrato fra due frame ravvicinati, utilizza una depth map. Per la realizzazione di tale mappa delle distanze si è utilizzata una stereocamera, che per ogni frame acquisisce immagine destra e sinistra. Dalla differenza tra tali immagini, previa conoscenza dei parametri di calibrazione, si calcola la distanza di ogni pixel. Tale immagine risultante è pregna di significato per la nostra applicazione, in quanto, oltre a differenziare le parti dell'immagine aventi distanza relativa, da un'indicazione precisa sul volume di eventuali oggetti in primo piano. I risultati così ottenuti sono notevoli, tanto per la qualità dei risultati, quanto per i tempi di esecuzioneFile | Dimensione | Formato | |
---|---|---|---|
toffolatti.saliencydetection.2011.pdf
accesso aperto
Dimensione
6.87 MB
Formato
Adobe PDF
|
6.87 MB | Adobe PDF | Visualizza/Apri |
The text of this website © Università degli studi di Padova. Full Text are published under a non-exclusive license. Metadata are under a CC0 License
https://hdl.handle.net/20.500.12608/14777