The present thesis focuses on the application of advanced neural networks, specifically Convolutional Recurrent Neural Networks (CNN-RNN) and Transformer-based models, to address the challenge of automatic recognition of violence scenes in video streams. The main goal is to develop an effective and efficient system capable of automatically learning the salient features of violent scenes and recognizing them accurately. Throughout the experiments, various neural network architectures will be trained and evaluated, exploring the potential of CNN-RNN in capturing spatial and temporal information, as well as the effectiveness of Transformer-based models in handling complex relationships among scene elements. Training will be conducted using the dataset produced by AIRTLAB.

La presente tesi si concentra sull'applicazione di reti neurali avanzate, nello specifico reti neurali convoluzionali ricorrenti (CNN-RNN) e modelli basati su trasformatori, per affrontare la sfida del riconoscimento automatico di scene di violenza in flussi video. L'obiettivo principale è sviluppare un sistema efficace e efficiente in grado di apprendere automaticamente le caratteristiche salienti delle scene violente e di riconoscerle con precisione. Nel corso degli esperimenti, verranno addestrate e valutate diverse architetture di reti neurali, esplorando le potenzialità delle CNN-RNN nella cattura di informazioni spaziali e temporali, nonché l'efficacia dei modelli basati su trasformatori nel gestire relazioni complesse tra gli elementi della scena. L'addestramento sarà condotto utilizzando il dataset prodotto da AIRTLAB.

Esperimenti di Machine Learning e Deep Learning nell'ambito del riconoscimento automatico di scene di violenza in flussi video.

VIGNATI, GIULIO
2022/2023

Abstract

The present thesis focuses on the application of advanced neural networks, specifically Convolutional Recurrent Neural Networks (CNN-RNN) and Transformer-based models, to address the challenge of automatic recognition of violence scenes in video streams. The main goal is to develop an effective and efficient system capable of automatically learning the salient features of violent scenes and recognizing them accurately. Throughout the experiments, various neural network architectures will be trained and evaluated, exploring the potential of CNN-RNN in capturing spatial and temporal information, as well as the effectiveness of Transformer-based models in handling complex relationships among scene elements. Training will be conducted using the dataset produced by AIRTLAB.
2022
2024-02-22
Machine Learning and Deep Learning Experiments in the Context of Automatic Recognition of Violence Scenes in Video Streams.
La presente tesi si concentra sull'applicazione di reti neurali avanzate, nello specifico reti neurali convoluzionali ricorrenti (CNN-RNN) e modelli basati su trasformatori, per affrontare la sfida del riconoscimento automatico di scene di violenza in flussi video. L'obiettivo principale è sviluppare un sistema efficace e efficiente in grado di apprendere automaticamente le caratteristiche salienti delle scene violente e di riconoscerle con precisione. Nel corso degli esperimenti, verranno addestrate e valutate diverse architetture di reti neurali, esplorando le potenzialità delle CNN-RNN nella cattura di informazioni spaziali e temporali, nonché l'efficacia dei modelli basati su trasformatori nel gestire relazioni complesse tra gli elementi della scena. L'addestramento sarà condotto utilizzando il dataset prodotto da AIRTLAB.
File in questo prodotto:
File Dimensione Formato  
vignati-giulio-thesis.pdf

accesso aperto

Dimensione 642.3 kB
Formato Adobe PDF
642.3 kB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/16725