Accurate understanding of three-dimensional scenes is crucial for autonomous vehicles, as it enables safe navigation and a more comprehensive perception of the environment. Recent 3D occupancy prediction models have significantly improved the ability to represent real-world objects with varying shapes and classes. However, most existing approaches rely almost exclusively on images from surround-view cameras, making them vulnerable to adverse environmental conditions such as low lighting or rain. This thesis presents a simplified sensor fusion framework that extends the OccFusion network to predict 3D occupancy by integrating information from cameras, LiDAR, and millimeter-wave radar sensors. The goal is to enhance the robustness of the system while simultaneously reducing computational costs through architectural simplification.

Una comprensione accurata delle scene tridimensionali è fondamentale per i veicoli autonomi, in quanto consente una navigazione sicura e una percezione dell’ambiente più completa. I modelli recenti di 3D occupancy prediction hanno migliorato significativamente la capacità di rappresentare oggetti del mondo reale con forme e classi variabili. Tuttavia, la maggior parte degli approcci esistenti si basa quasi esclusivamente su immagini prove- nienti da telecamere surround-view, risultando vulnerabili a condizioni ambientali avverse, come scarsa illuminazione o pioggia. In questa tesi viene presentato un framework di fusio- ne sensoriale semplificato, che estende la rete OccFusion per prevedere l’occupazione 3D integrando informazioni da telecamere, sensori LiDAR e radar millimetrici. L’obiettivo è migliorare la robustezza del sistema, riducendo, al contempo, il costo computazionale tramite una semplificazione architetturale.

Occupancy Prediction tramite Reti Neurali: Confronto tra Early e Mid Fusion di dati Radar, LiDAR e RGB

MARAGLINO, UMBERTO
2024/2025

Abstract

Accurate understanding of three-dimensional scenes is crucial for autonomous vehicles, as it enables safe navigation and a more comprehensive perception of the environment. Recent 3D occupancy prediction models have significantly improved the ability to represent real-world objects with varying shapes and classes. However, most existing approaches rely almost exclusively on images from surround-view cameras, making them vulnerable to adverse environmental conditions such as low lighting or rain. This thesis presents a simplified sensor fusion framework that extends the OccFusion network to predict 3D occupancy by integrating information from cameras, LiDAR, and millimeter-wave radar sensors. The goal is to enhance the robustness of the system while simultaneously reducing computational costs through architectural simplification.
2024
2025-07-11
Occupancy Prediction Using Neural Networks: Comparison Between Early and Mid Fusion of Radar, LiDAR, and RGB Data
Una comprensione accurata delle scene tridimensionali è fondamentale per i veicoli autonomi, in quanto consente una navigazione sicura e una percezione dell’ambiente più completa. I modelli recenti di 3D occupancy prediction hanno migliorato significativamente la capacità di rappresentare oggetti del mondo reale con forme e classi variabili. Tuttavia, la maggior parte degli approcci esistenti si basa quasi esclusivamente su immagini prove- nienti da telecamere surround-view, risultando vulnerabili a condizioni ambientali avverse, come scarsa illuminazione o pioggia. In questa tesi viene presentato un framework di fusio- ne sensoriale semplificato, che estende la rete OccFusion per prevedere l’occupazione 3D integrando informazioni da telecamere, sensori LiDAR e radar millimetrici. L’obiettivo è migliorare la robustezza del sistema, riducendo, al contempo, il costo computazionale tramite una semplificazione architetturale.
File in questo prodotto:
File Dimensione Formato  
TesiMaraglinoA.pdf

accesso aperto

Dimensione 2.03 MB
Formato Adobe PDF
2.03 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/22675