Modern multimodal systems often require paired data, like image-text. However, real samples from a category are often inaccessible due to privacy, licensing and storage constraints. This is a problem, considering that organizations need to reuse knowledge from a modality to improve student models, which are typically smaller and cheaper networks trained to mimic a stronger teacher by matching its soft targets and sometimes features, retaining most of the teacher’s accuracy under tighter compute or data budgets. Cross-modal knowledge distillation promises this transfer, but in a data free settings, this becomes a challenge. Considering the case of image-text pairing, the teacher and the student live in different modalities and no instance-level supervision on real images is available, forcing supervision to be synthesized and potentially coarse. Addressing this enables privacy-preserving, data-minimizing model reuse, which is particularly valuable in humanitarian contexts, like the one of CrisisMMD. This thesis investigates cross-modal, data-free knowledge distillation on CrisisMMD, using an image-only ResNet-18 teacher and a text-only BERT student. A reproducible pipeline is introduced that trains the visual teacher, discards real images, and supervises the student through class-conditioned soft-label and feature caches synthesized on the fly. Four environments are evaluated: a supervised BERT baseline; data-free KL; OFSD-gated non-target KD (NCKD); and the full C2KD stack with proxies and a Feature Adaptation Layer (active, loss weight wfeat=0). Results show that modeling non-target structure and OFSD gating improve early performance: the best peak reaches 60.17% Acc@1 at epoch 4 with full C2KD (baseline 57.94%); OFSD-only attains 59.67% at epoch 4 and the strongest tail (56.33% last) versus 54.45% last for the full setup. Training diagnostics indicate fast proxy alignment (KDsp decay) and steadily decreasing CE/NCKD, while validation CE rises as evaluation is label-CE and training emphasizes non-target structure. Overall, trends align with C2KD under strict data-free constraints, proving this as a viable research. Future developments, whose goal is to improve performances, target the main limitations observed: (i) mitigating the coarseness of class level supervision, (ii) increasing teacher capacity beyond ResNet-18, (iii) coping with CrisisMMD imbalance and the CE–Acc@1 mismatch, including evaluation on larger multimodal datasets and (iv) testing stronger synthesizers. OFSD-gated non-target transfer remains the primary lever, while proxies/FAL mainly regularize optimization and, in future works, could improve further the results obtained.

Nei moderni sistemi multimodali è spesso necessario disporre di dati accoppiati, come ad esempio immagine-testo. Tuttavia, i campioni reali per una data categoria risultano spesso inaccessibili per vincoli di privacy, licenze e costi di archiviazione. Questo crea un problema, poichè le organizzazioni hanno comunque bisogno di riutilizzare la conoscenza di una modalità per migliorare modelli student, che sono in genere reti più piccole e leggere addestrate a imitare un insegnante più forte tramite il matching dei suoi soft target e talvolta delle feature, conservando gran parte dell’accuratezza con budget computazionali o di dati più ridotti. La cross-modal knowledge distillation promette tale trasferimento, ma in regime data free si ha una sfida significativa. Considerando il caso immagine-testo, il teacher e lo studente vivono in modalità differenti e non sono disponibili supervisioni a livello di istanza su immagini reali, costringendo a supervisioni sintetiche e potenzialmente grossolane. Affrontare questo problema abilita un riuso dei modelli che preserva la privacy e minimizza i dati, particolarmente rilevante in contesti umanitari, come quello evidenziato in CrisisMMD. Questa tesi indaga la knowledge distillation cross–modal in regime data–free su CrisisMMD, con un teacher visivo ResNet-18 (solo immagini) e uno student testuale BERT (solo testo). Si introduce una pipeline riproducibile che addestra il teacher, elimina le immagini reali e supervisiona lo student tramite cache di soft–label e di feature condizionate alla classe, sintetizzate on–the–fly. Vengono valutati quattro ambienti di lavoro: baseline supervisionata BERT; DFKD con sola KL; KD dei soli non–target (NCKD) con selezione OFSD; e lo stack completo C2KD con proxies e Feature Adaptation Layer (FAL attivo, peso di loss wfeat=0). I risultati mostrano che modellare la struttura non–target e il gating OFSD migliora l’andamento iniziale: il picco migliore raggiunge 60.17% Acc@1 all’epoca 4 con C2KD completo (baseline 57.94%); OFSD–only ottiene 59.67% all’epoca 4 e la coda più robusta (56.33% last) contro 54.45% last per il setup completo. Le diagnostiche di training indicano rapido allineamento dei proxy (decadimento di KDsp) e CE/NCKD in diminuzione, mentre la CE di validazione cresce poiché la valutazione usa CE su etichette e l’addestramento enfatizza la struttura non–target. Nel complesso, gli andamenti sono coerenti con C2KD sotto vincoli data–free, confermando la fattibilità del trasferimento. Gli sviluppi futuri, mirati a migliorare le prestazioni, affronteranno le principali limitazioni osservate: (i) mitigare la granularità delle supervisioni a livello di classe, (ii) aumentare la capacità del teacher oltre ResNet- 18, (iii) gestire lo sbilanciamento di CrisisMMD e il disallineamento CE–Acc@1, includendo la valutazione su dataset multimodali più ampi e (iv) testare sintetizzatori più efficaci. Il trasferimento non–target con gating OFSD rimane la leva primaria, mentre proxies/FAL agiscono soprattutto da regolarizzatori dell’ottimizzazione e, in lavori futuri, potrebbero migliorare ulteriormente i risultati ottenuti.

Esplorazione della modalità e dei vincoli sui dati in kd: verso il libero trasferimento dei dati

GIANO, SIMONE
2024/2025

Abstract

Modern multimodal systems often require paired data, like image-text. However, real samples from a category are often inaccessible due to privacy, licensing and storage constraints. This is a problem, considering that organizations need to reuse knowledge from a modality to improve student models, which are typically smaller and cheaper networks trained to mimic a stronger teacher by matching its soft targets and sometimes features, retaining most of the teacher’s accuracy under tighter compute or data budgets. Cross-modal knowledge distillation promises this transfer, but in a data free settings, this becomes a challenge. Considering the case of image-text pairing, the teacher and the student live in different modalities and no instance-level supervision on real images is available, forcing supervision to be synthesized and potentially coarse. Addressing this enables privacy-preserving, data-minimizing model reuse, which is particularly valuable in humanitarian contexts, like the one of CrisisMMD. This thesis investigates cross-modal, data-free knowledge distillation on CrisisMMD, using an image-only ResNet-18 teacher and a text-only BERT student. A reproducible pipeline is introduced that trains the visual teacher, discards real images, and supervises the student through class-conditioned soft-label and feature caches synthesized on the fly. Four environments are evaluated: a supervised BERT baseline; data-free KL; OFSD-gated non-target KD (NCKD); and the full C2KD stack with proxies and a Feature Adaptation Layer (active, loss weight wfeat=0). Results show that modeling non-target structure and OFSD gating improve early performance: the best peak reaches 60.17% Acc@1 at epoch 4 with full C2KD (baseline 57.94%); OFSD-only attains 59.67% at epoch 4 and the strongest tail (56.33% last) versus 54.45% last for the full setup. Training diagnostics indicate fast proxy alignment (KDsp decay) and steadily decreasing CE/NCKD, while validation CE rises as evaluation is label-CE and training emphasizes non-target structure. Overall, trends align with C2KD under strict data-free constraints, proving this as a viable research. Future developments, whose goal is to improve performances, target the main limitations observed: (i) mitigating the coarseness of class level supervision, (ii) increasing teacher capacity beyond ResNet-18, (iii) coping with CrisisMMD imbalance and the CE–Acc@1 mismatch, including evaluation on larger multimodal datasets and (iv) testing stronger synthesizers. OFSD-gated non-target transfer remains the primary lever, while proxies/FAL mainly regularize optimization and, in future works, could improve further the results obtained.
2024
2025-10-17
Exploring cross-modality and data costraints in kd: towards data free transfer
Nei moderni sistemi multimodali è spesso necessario disporre di dati accoppiati, come ad esempio immagine-testo. Tuttavia, i campioni reali per una data categoria risultano spesso inaccessibili per vincoli di privacy, licenze e costi di archiviazione. Questo crea un problema, poichè le organizzazioni hanno comunque bisogno di riutilizzare la conoscenza di una modalità per migliorare modelli student, che sono in genere reti più piccole e leggere addestrate a imitare un insegnante più forte tramite il matching dei suoi soft target e talvolta delle feature, conservando gran parte dell’accuratezza con budget computazionali o di dati più ridotti. La cross-modal knowledge distillation promette tale trasferimento, ma in regime data free si ha una sfida significativa. Considerando il caso immagine-testo, il teacher e lo studente vivono in modalità differenti e non sono disponibili supervisioni a livello di istanza su immagini reali, costringendo a supervisioni sintetiche e potenzialmente grossolane. Affrontare questo problema abilita un riuso dei modelli che preserva la privacy e minimizza i dati, particolarmente rilevante in contesti umanitari, come quello evidenziato in CrisisMMD. Questa tesi indaga la knowledge distillation cross–modal in regime data–free su CrisisMMD, con un teacher visivo ResNet-18 (solo immagini) e uno student testuale BERT (solo testo). Si introduce una pipeline riproducibile che addestra il teacher, elimina le immagini reali e supervisiona lo student tramite cache di soft–label e di feature condizionate alla classe, sintetizzate on–the–fly. Vengono valutati quattro ambienti di lavoro: baseline supervisionata BERT; DFKD con sola KL; KD dei soli non–target (NCKD) con selezione OFSD; e lo stack completo C2KD con proxies e Feature Adaptation Layer (FAL attivo, peso di loss wfeat=0). I risultati mostrano che modellare la struttura non–target e il gating OFSD migliora l’andamento iniziale: il picco migliore raggiunge 60.17% Acc@1 all’epoca 4 con C2KD completo (baseline 57.94%); OFSD–only ottiene 59.67% all’epoca 4 e la coda più robusta (56.33% last) contro 54.45% last per il setup completo. Le diagnostiche di training indicano rapido allineamento dei proxy (decadimento di KDsp) e CE/NCKD in diminuzione, mentre la CE di validazione cresce poiché la valutazione usa CE su etichette e l’addestramento enfatizza la struttura non–target. Nel complesso, gli andamenti sono coerenti con C2KD sotto vincoli data–free, confermando la fattibilità del trasferimento. Gli sviluppi futuri, mirati a migliorare le prestazioni, affronteranno le principali limitazioni osservate: (i) mitigare la granularità delle supervisioni a livello di classe, (ii) aumentare la capacità del teacher oltre ResNet- 18, (iii) gestire lo sbilanciamento di CrisisMMD e il disallineamento CE–Acc@1, includendo la valutazione su dataset multimodali più ampi e (iv) testare sintetizzatori più efficaci. Il trasferimento non–target con gating OFSD rimane la leva primaria, mentre proxies/FAL agiscono soprattutto da regolarizzatori dell’ottimizzazione e, in lavori futuri, potrebbero migliorare ulteriormente i risultati ottenuti.
File in questo prodotto:
File Dimensione Formato  
Tesi_Simone_Giano_.pdf

accesso aperto

Dimensione 3.11 MB
Formato Adobe PDF
3.11 MB Adobe PDF Visualizza/Apri

I documenti in UNITESI sono protetti da copyright e tutti i diritti sono riservati, salvo diversa indicazione.

Utilizza questo identificativo per citare o creare un link a questo documento: https://hdl.handle.net/20.500.12075/23240