Un sistema di query answering per un Semantic Data Lake

My thesis work shows the development of a query answering system in an existing Semantic Data Lake. The main objective is returning data sources capable of respond to the query, also identifying the cases in which join execution between data sources is needed to obtain requested information. Infact, it is possible that data are in different sources and it could be appropriate individuating join with the biggest cardinalities (so the best from an information point of view). However, multiple join execution in Data Lake context can be very expensive. So an index called joinability index whom aim is to estimate final join cardinalities between found data sources is provided, also returning to the user a ranking of join with the most information.

L'elaborato mostra l'implementazione di un sistema di query answering all'interno di un Semantic Data Lake esistente. L'obiettivo principale è quello di restituire le sorgenti dati in grado di rispondere alla query, individuando anche i casi in cui è necessario effettuare join tra le sorgenti per ricavare le informazioni richieste. Infatti, è possibile che i dati desiderati si trovino su più sorgenti e potrebbe essere opportuno individuare i join con la cardinalità più grande (i migliori, quindi, dal punto di vista informativo). Tuttavia, l'esecuzione di join multipli nel contesto di un Data Lake può essere molto costosa. Viene quindi fornito un indice chiamato joinability index in grado di stimare le cardinalità finali dei join tra le sorgenti trovate, restituendo contestualmente all'utente un ranking dei join con il maggior numero di informazioni.

Un sistema di query answering per un Semantic Data Lake

ROSSETTI, CRISTINA

2022/2023

Abstract

My thesis work shows the development of a query answering system in an existing Semantic Data Lake. The main objective is returning data sources capable of respond to the query, also identifying the cases in which join execution between data sources is needed to obtain requested information. Infact, it is possible that data are in different sources and it could be appropriate individuating join with the biggest cardinalities (so the best from an information point of view). However, multiple join execution in Data Lake context can be very expensive. So an index called joinability index whom aim is to estimate final join cardinalities between found data sources is provided, also returning to the user a ranking of join with the most information.

Scheda breve

Scheda completa

Scheda completa (DC)

	Facoltà/Dipartimento
	
				Dipartimento Ingegneria dell'Informazione
			
	Corso di studio
	
				INGEGNERIA INFORMATICA E DELL'AUTOMAZIONE
			
	Anno Accademico
	
				2022
			
	Data dell'esame finale
	
				2023-10-20
			
	Titolo inglese
	
				A query aswering system for a Semantic Data Lake
			
	Abstract in italiano
	
				L'elaborato mostra l'implementazione di un sistema di query answering all'interno di un Semantic Data Lake esistente. L'obiettivo principale è quello di restituire le sorgenti dati in grado di rispondere alla query, individuando anche i casi in cui è necessario effettuare join tra le sorgenti per ricavare le informazioni richieste. Infatti, è possibile che i dati desiderati si trovino su più sorgenti e potrebbe essere opportuno individuare i join con la cardinalità più grande (i migliori, quindi, dal punto di vista informativo). Tuttavia, l'esecuzione di join multipli nel contesto di un Data Lake può essere molto costosa. Viene quindi fornito un indice chiamato joinability index in grado di stimare le cardinalità finali dei join tra le sorgenti trovate, restituendo contestualmente all'utente un ranking dei join con il maggior numero di informazioni.
			
	Relatore
	
				POTENA, DOMENICO
			
	Correlatore
	
				STORTI, EMANUELE
			
	Appare nelle tipologie:
	
				Laurea specialistica, magistrale, ciclo unico

File in questo prodotto:

File	Dimensione	Formato
Tesi_finale.pdf accesso aperto Dimensione 1.65 MB Formato Adobe PDF Visualizza/Apri	1.65 MB	Adobe PDF	Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/15106