The problem of image processing, aimed at interpreting and classifying image content, has been a focal point of research since the early days of computing. As computing technology has advanced, image categorization has found increasingly broad applications, especially in emerging fields such as object recognition and computer vision. This thesis is positioned within the latter field, focusing on the use of deep learning techniques for multimedia data analysis in the fashion industry. The thesis is structured into several main sections. The first part provides a general overview of deep learning, with a particular focus on various machine learning algorithms. This is followed by an analysis of the concept of artificial neural networks, delving into convolutional neural networks (CNNs) and the Transformer architecture, which are central to the project. These architectures enabled the development of a system capable of classifying and interpreting images of handbags obtained through web scraping techniques from various e-commerce sites. The second section is dedicated to data acquisition and preparation. Using scraping tools like Selenium Webdriver, detailed data were collected on different handbag categories, including metadata such as price, brand, dimensions, color, and availability status. This data was subsequently cleaned, normalized, and annotated to create a robust and representative dataset used in the subsequent project phases. The following phase involved training object detection models using advanced deep learning techniques to accurately recognize and classify handbags in images. Performance metrics from validation and testing phases demonstrated excellent generalization capabilities, indicating that the models could accurately recognize different handbag categories even on previously unseen images. Finally, an AWS Lambda-based application was developed to create an API that allows interaction with the best-trained model. This API is designed to receive image inputs, process them through the object detection model, and return relevant information such as the handbag category and its position within the image. The developed application represents a significant advancement in integrating AI solutions to enhance user experience and automate image classification processes in the fashion sector. This thesis makes a meaningful contribution to the field of object detection applied to fashion, showcasing the potential of deep learning techniques to improve efficiency and accuracy in detecting and classifying objects within images. The solutions developed offer new opportunities to analyze consumer trends and personalize product offerings, providing a solid foundation for future developments and applications in computer vision.
Il problema dell’elaborazione delle immagini, mirata all’interpretazione e alla classificazione del contenuto delle stesse, ha attirato l’attenzione dei ricercatori dai primi tempi della nascita e diffusione dei calcolatori. Con il progredire della tecnologia dei sistemi di calcolo, la categorizzazione delle immagini ha trovato applicazioni sempre più vaste, riguardando discipline di nuova generazione come l’object recognition e la computer vision. È proprio in quest’ultima disciplina che si inserisce il lavoro di tesi, il cui tema centrale è l’uso delle tecniche di deep learning per l’analisi dei dati multimediali nel settore della moda. Il lavoro svolto si articola in diverse macro-sezioni. Nella prima parte è stato fatto un approfondimento generale sul deep learning, con un focus particolare sui vari algoritmi di apprendimento automatico. Successivamente, è stato analizzato il concetto di rete neurale artificiale, approfondendo le reti neurali convoluzionali (CNN) e l’architettura Transformer, che sono state il fulcro del progetto. Queste architetture hanno permesso di implementare un sistema in grado di classificare e interpretare immagini di borse, ottenute attraverso tecniche di web scraping da vari siti di e-commerce. La seconda sezione del lavoro è stata dedicata all’acquisizione e alla preparazione dei dati. Utilizzando strumenti di scraping come Selenium Webdriver, sono stati raccolti dati dettagliati su diverse categorie di borse, compresi metadati come prezzo, marca, dimensioni, colore e stato delle offerte. Questi dati sono stati successivamente puliti, normalizzati e annotati per creare un dataset robusto e rappresentativo, utilizzato nelle fasi successive del progetto. La fase successiva ha coinvolto l’addestramento dei modelli di rilevamento oggetti. Questi modelli sono stati addestrati utilizzando tecniche avanzate di deep learning per riconoscere e classificare correttamente le borse nelle immagini. Le metriche di performance ottenute durante le fasi di validazione e test hanno mostrato un’ottima capacità di generalizzazione, indicando che i modelli erano in grado di riconoscere accuratamente le diverse categorie di borse anche su immagini non viste precedentemente. Infine, è stato sviluppato un applicativo basato su AWS Lambda per creare un’API che permette di interagire con il miglior modello addestrato. Tale API è progettata per ricevere immagini in input, processarle attraverso il modello di rilevamento oggetti e restituire informazioni rilevanti, come la categoria della borsa e la posizione all’interno dell’immagine. L’applicativo sviluppato costituisce un avanzamento importante nell’integrazione di soluzioni di intelligenza artificiale per migliorare l’esperienza utente e automatizzare i processi di classificazione delle immagini nel settore della moda. Questo lavoro di tesi rappresenta un contributo significativo nel campo dell’object detection applicata al settore della moda, dimostrando il potenziale delle tecniche di deep learning per migliorare l’efficienza e l’accuratezza nella detection e nella classificazione degli oggetti all’interno di un’immagine. Le soluzioni sviluppate offrono nuove opportunità per analizzare le tendenze di consumo e personalizzare l’offerta di prodotti, fornendo una base solida per futuri sviluppi e applicazioni nell’ambito della computer vision.
Analisi di dati multimediali provenienti dai social media e dagli e-tailers per prevedere le tendenze nel settore della moda
MANCINI, RICCARDO
2023/2024
Abstract
The problem of image processing, aimed at interpreting and classifying image content, has been a focal point of research since the early days of computing. As computing technology has advanced, image categorization has found increasingly broad applications, especially in emerging fields such as object recognition and computer vision. This thesis is positioned within the latter field, focusing on the use of deep learning techniques for multimedia data analysis in the fashion industry. The thesis is structured into several main sections. The first part provides a general overview of deep learning, with a particular focus on various machine learning algorithms. This is followed by an analysis of the concept of artificial neural networks, delving into convolutional neural networks (CNNs) and the Transformer architecture, which are central to the project. These architectures enabled the development of a system capable of classifying and interpreting images of handbags obtained through web scraping techniques from various e-commerce sites. The second section is dedicated to data acquisition and preparation. Using scraping tools like Selenium Webdriver, detailed data were collected on different handbag categories, including metadata such as price, brand, dimensions, color, and availability status. This data was subsequently cleaned, normalized, and annotated to create a robust and representative dataset used in the subsequent project phases. The following phase involved training object detection models using advanced deep learning techniques to accurately recognize and classify handbags in images. Performance metrics from validation and testing phases demonstrated excellent generalization capabilities, indicating that the models could accurately recognize different handbag categories even on previously unseen images. Finally, an AWS Lambda-based application was developed to create an API that allows interaction with the best-trained model. This API is designed to receive image inputs, process them through the object detection model, and return relevant information such as the handbag category and its position within the image. The developed application represents a significant advancement in integrating AI solutions to enhance user experience and automate image classification processes in the fashion sector. This thesis makes a meaningful contribution to the field of object detection applied to fashion, showcasing the potential of deep learning techniques to improve efficiency and accuracy in detecting and classifying objects within images. The solutions developed offer new opportunities to analyze consumer trends and personalize product offerings, providing a solid foundation for future developments and applications in computer vision.File | Dimensione | Formato | |
---|---|---|---|
Tesi Magistrale - Riccardo Mancini.pdf
accesso aperto
Descrizione: Tesi relativa al corso di laurea Magistrale in Ingegneria Informatica e dell'Automazione di Riccardo Mancini
Dimensione
5.16 MB
Formato
Adobe PDF
|
5.16 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.12075/19222