Seminari sul Machine Learning. Digitalizzazione degli archivi storici del XVIII secolo

View Calendar
2025-02-26 09:00 - 14:00

Nell'ambito della decodifica di testi scritti a mano in documenti storici, questo studio presenta un approccio alla trascrizione e digitalizzazione di una specifica classe di documenti: i registri navali del XVIII secolo provenienti dai porti inglesi. Si concentra su tre processi chiave: rilevamento del testo (TDET), decodifica del testo (TDEC) ed elaborazione successiva (POST). TDET utilizza algoritmi "learning-free" per segmentare il documento binarizzato in singole righe, mentre TDEC impiega reti neurali per convertire queste righe di immagine in testo ricercabile. POST prevede la ricombinazione del testo decodificato in un formato tabellare strutturato per ricostruire il layout originale della pagina. Durante questa fase, i valori vengono anche normalizzati secondo vocabolari predefiniti per garantire coerenza e accuratezza. Diverse architetture di reti neurali sono state valutate e ottimizzate attraverso diverse combinazioni di iperparametri e set di dati migliorati da tecniche di data augmentation (DA) e generazione di dati sintetici (SDG). I risultati contribuiscono allo sviluppo di una pipeline robusta per la digitalizzazione, la normalizzazione e l'archiviazione di documenti storici scritti a mano, ampliando l'accessibilità ai dati storici.

Il seminario sarà tenuto da Alessandro Volpetti, che ha recentemente conseguito il master di II livello su Big Data, metodi statistici per la società della conoscenza presso la Sapienza, con tirocinio presso ENEA TERIN-ICT e che è risultato essere uno dei migliori lavori di questa edizione del master.

Il link di partecipazione è il seguente:
https://teams.microsoft.com/l/meetup-join/19%3avQIb-hlAklkTQA7S6MhnlH5ADAO3Bju2fGkLeuNSAw01%40thread.tacv2/1739265370657?context=%7b%22Tid%22%3a%22f01418a6-08bc-47fd-b440-6cd70183d133%22%2c%22Oid%22%3a%228097a0d0-4d3b-47a6-93e9-9e203c5a8f79%22%7d