My thesis work shows the development of a query answering system in an existing Semantic Data Lake. The main objective is returning data sources capable of respond to the query, also identifying the cases in which join execution between data sources is needed to obtain requested information. Infact, it is possible that data are in different sources and it could be appropriate individuating join with the biggest cardinalities (so the best from an information point of view). However, multiple join execution in Data Lake context can be very expensive. So an index called joinability index whom aim is to estimate final join cardinalities between found data sources is provided, also returning to the user a ranking of join with the most information.

L'elaborato mostra l'implementazione di un sistema di query answering all'interno di un Semantic Data Lake esistente. L'obiettivo principale è quello di restituire le sorgenti dati in grado di rispondere alla query, individuando anche i casi in cui è necessario effettuare join tra le sorgenti per ricavare le informazioni richieste. Infatti, è possibile che i dati desiderati si trovino su più sorgenti e potrebbe essere opportuno individuare i join con la cardinalità più grande (i migliori, quindi, dal punto di vista informativo). Tuttavia, l'esecuzione di join multipli nel contesto di un Data Lake può essere molto costosa. Viene quindi fornito un indice chiamato joinability index in grado di stimare le cardinalità finali dei join tra le sorgenti trovate, restituendo contestualmente all'utente un ranking dei join con il maggior numero di informazioni.

Un sistema di query answering per un Semantic Data Lake

ROSSETTI, CRISTINA
2022/2023

Abstract

My thesis work shows the development of a query answering system in an existing Semantic Data Lake. The main objective is returning data sources capable of respond to the query, also identifying the cases in which join execution between data sources is needed to obtain requested information. Infact, it is possible that data are in different sources and it could be appropriate individuating join with the biggest cardinalities (so the best from an information point of view). However, multiple join execution in Data Lake context can be very expensive. So an index called joinability index whom aim is to estimate final join cardinalities between found data sources is provided, also returning to the user a ranking of join with the most information.
2022
2023-10-20
A query aswering system for a Semantic Data Lake
L'elaborato mostra l'implementazione di un sistema di query answering all'interno di un Semantic Data Lake esistente. L'obiettivo principale è quello di restituire le sorgenti dati in grado di rispondere alla query, individuando anche i casi in cui è necessario effettuare join tra le sorgenti per ricavare le informazioni richieste. Infatti, è possibile che i dati desiderati si trovino su più sorgenti e potrebbe essere opportuno individuare i join con la cardinalità più grande (i migliori, quindi, dal punto di vista informativo). Tuttavia, l'esecuzione di join multipli nel contesto di un Data Lake può essere molto costosa. Viene quindi fornito un indice chiamato joinability index in grado di stimare le cardinalità finali dei join tra le sorgenti trovate, restituendo contestualmente all'utente un ranking dei join con il maggior numero di informazioni.
File in questo prodotto:
File Dimensione Formato  
Tesi_finale.pdf

accesso aperto

Dimensione 1.65 MB
Formato Adobe PDF
1.65 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/15106