My thesis work shows the development of a query answering system in an existing Semantic Data Lake. The main objective is returning data sources capable of respond to the query, also identifying the cases in which join execution between data sources is needed to obtain requested information. Infact, it is possible that data are in different sources and it could be appropriate individuating join with the biggest cardinalities (so the best from an information point of view). However, multiple join execution in Data Lake context can be very expensive. So an index called joinability index whom aim is to estimate final join cardinalities between found data sources is provided, also returning to the user a ranking of join with the most information.
L'elaborato mostra l'implementazione di un sistema di query answering all'interno di un Semantic Data Lake esistente. L'obiettivo principale è quello di restituire le sorgenti dati in grado di rispondere alla query, individuando anche i casi in cui è necessario effettuare join tra le sorgenti per ricavare le informazioni richieste. Infatti, è possibile che i dati desiderati si trovino su più sorgenti e potrebbe essere opportuno individuare i join con la cardinalità più grande (i migliori, quindi, dal punto di vista informativo). Tuttavia, l'esecuzione di join multipli nel contesto di un Data Lake può essere molto costosa. Viene quindi fornito un indice chiamato joinability index in grado di stimare le cardinalità finali dei join tra le sorgenti trovate, restituendo contestualmente all'utente un ranking dei join con il maggior numero di informazioni.
Un sistema di query answering per un Semantic Data Lake
ROSSETTI, CRISTINA
2022/2023
Abstract
My thesis work shows the development of a query answering system in an existing Semantic Data Lake. The main objective is returning data sources capable of respond to the query, also identifying the cases in which join execution between data sources is needed to obtain requested information. Infact, it is possible that data are in different sources and it could be appropriate individuating join with the biggest cardinalities (so the best from an information point of view). However, multiple join execution in Data Lake context can be very expensive. So an index called joinability index whom aim is to estimate final join cardinalities between found data sources is provided, also returning to the user a ranking of join with the most information.File | Dimensione | Formato | |
---|---|---|---|
Tesi_finale.pdf
accesso aperto
Dimensione
1.65 MB
Formato
Adobe PDF
|
1.65 MB | Adobe PDF | Visualizza/Apri |
I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.
https://hdl.handle.net/20.500.12075/15106