With the emergence of the "safe city" concept, the construction of security has gradually been appreciated by various cities and video surveillance technology has also been continuously developed and applied. However, as the functional requirements of real-world applications become increasingly diverse, video surveillance systems also need to be smarter. Having an automatic system capable of performing continuous monitoring of images would greatly improve the efficiency of video surveillance. In this paper an automatic system is introduced and implemented for the choice of the best hyperparameters to be used within a recognition system which, using two architectures based on the 3D Convolutional Neural Network, is able to detect fights, aggressive movements and scenes of violence in the videos. The two architectures are compared using seven benchmark datasets, three of which are the most famous in the literature (Hockey Fights dataset, Crowd Violence dataset and Movie Violence dataset).

Con l'emergere del concetto di "città sicura", la costruzione della sicurezza è stata gradualmente apprezzata da varie città e anche la tecnologia di videosorveglianza è stata continuamente sviluppata e applicata. Tuttavia, poiché i requisiti funzionali delle applicazioni reali diventano sempre più diversificati, anche i sistemi di videosorveglianza devono essere più intelligenti. Avere un sistema automatico capace di eseguire il monitoraggio continuo delle immagini, permetterebbe di migliorare notevolmente l'efficienza della video sorveglianza. In questo elaborato viene introdotto ed implementato un sistema automatico per la scelta degli iperparametri migliori da utilizzare all'interno di un sistema di riconoscimento che, utilizzando due architetture basate sulle 3D Convolutional Neural Network, è in grado di rilevare lotte, movimenti aggressivi e scene di violenza nei video. Le due architetture vengono confrontate utilizzando sette dataset di benchmark, tre dei quali sono quelli più famosi in letteratura (Hockey Fights dataset, Crowd Violence dataset e Movie Violence dataset).

Esperimenti di Machine Learning e Deep Learning nell'ambito del riconoscimento automatico di scene di violenza in flussi video.

CIUFFREDA, ERMINIO
2020/2021

Abstract

With the emergence of the "safe city" concept, the construction of security has gradually been appreciated by various cities and video surveillance technology has also been continuously developed and applied. However, as the functional requirements of real-world applications become increasingly diverse, video surveillance systems also need to be smarter. Having an automatic system capable of performing continuous monitoring of images would greatly improve the efficiency of video surveillance. In this paper an automatic system is introduced and implemented for the choice of the best hyperparameters to be used within a recognition system which, using two architectures based on the 3D Convolutional Neural Network, is able to detect fights, aggressive movements and scenes of violence in the videos. The two architectures are compared using seven benchmark datasets, three of which are the most famous in the literature (Hockey Fights dataset, Crowd Violence dataset and Movie Violence dataset).
2020
2021-07-22
Machine Learning and Deep Learning experiments in the field of automatic recognition of violence scenes in video streams.
Con l'emergere del concetto di "città sicura", la costruzione della sicurezza è stata gradualmente apprezzata da varie città e anche la tecnologia di videosorveglianza è stata continuamente sviluppata e applicata. Tuttavia, poiché i requisiti funzionali delle applicazioni reali diventano sempre più diversificati, anche i sistemi di videosorveglianza devono essere più intelligenti. Avere un sistema automatico capace di eseguire il monitoraggio continuo delle immagini, permetterebbe di migliorare notevolmente l'efficienza della video sorveglianza. In questo elaborato viene introdotto ed implementato un sistema automatico per la scelta degli iperparametri migliori da utilizzare all'interno di un sistema di riconoscimento che, utilizzando due architetture basate sulle 3D Convolutional Neural Network, è in grado di rilevare lotte, movimenti aggressivi e scene di violenza nei video. Le due architetture vengono confrontate utilizzando sette dataset di benchmark, tre dei quali sono quelli più famosi in letteratura (Hockey Fights dataset, Crowd Violence dataset e Movie Violence dataset).
File in questo prodotto:
File Dimensione Formato  
Ciuffreda_Erminio_thesis.pdf

embargo fino al 21/07/2024

Descrizione: Tesi di laurea triennale
Dimensione 8.37 MB
Formato Adobe PDF
8.37 MB Adobe PDF

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/168