NEWS T-WINNING

View Calendar
2024-03-19 11:26 - 11:26

Al termine del progetto T-WINNING, finanziato nell’ambito degli Accordi dell’Innovazione, ENEA ha realizzato un sistema per la valorizzazione dei dati provenienti dai social media attraverso tecniche di Machine Learning e Deep Learning, per fornire informazioni sulla moda e sui gusti dei consumatori, per migliorare l’analisi dei dati social, in particolare il tasso di coinvolgimento degli utenti per determinate immagini, l'engagement rate.

Il sistema di crawling di dati social si è basato sull’architettura HPC CRESCO6, e sono stati configurati e rilasciati per le finalità del progetto 8 nodi specifici per il crawling per un totale di 96 core, ai quali si aggiungono per le elaborazioni i 434 nodi del cluster CRESCO6 di Portici ed i 6 nodi GPU A100 della sede di Frascati, finalizzati agli algoritmi di Deep Learning.

La raccolta dei dati dai social avviene mediante l’utilizzo di uno software sviluppato in linguaggio Python e basato sul pacchetto open source Instaloader. Tale software utilizza le Graph API di Instagram per il download di post basato su hashtag di interesse. Vengono scaricate le foto, la caption e i metadati di ogni post. Utilizzando uno schedulatore si imposta l’esecuzione giornaliera dell’estrazione dei dati.
I post estratti vengono memorizzati nella collezione del database non relazionale MongoDB, mentre le immagini in essi contenuti sono memorizzate all’interno di Ceph, una piattaforma software open source di storage progettata per soddisfare le esigenze di storage di oggetti, blocchi e file all’interno di architetture multinodo.
L’algoritmo di Deep Learning utilizza un bucket di immagini fashion della categoria “borsa”, etichettata in undici diverse classi, a cui vengono associati dei metadati (numero di like, commenti, condivisioni, orario di pubblicazione, hashtag, latitudine e longitudine).

Il sistema è composto, in una prima fase, da un segmentatore MaskRCNN in serie alla rete Dinov2 basata sull’architettura dei Transformer, per identificare i pattern caratterizzanti dalle immagini, definendo le coordinate delle bounding boxes contenenti borse nelle immagini e classificando la borsa presente per tipologia.
Tale classificazione ha un’accuratezza del 98,6%, infatti il sistema ha mostrato di essere in grado di rilevare le caratteristiche distintive delle borse, e di associarle alle classi di borse corrispondenti.

Successivamente si utilizzano una rete neurale Gated Recurrent Unit (GRU) bidirectionale per esaminare le informazioni sequenziali degli hashtag, e una Feed-Forward network per distillare le informazioni aggregate dei metadati. Le caratteristiche estratte vengono concatenate e passate ai layers di output in grado di predire l’engagement rate.

Il punteggio di engagement rate viene definito con una formula pesata che include il numero di like e il numero di commenti relativi all’immagine selezionata.
Nel sistema sono state identificate cinque classi di engagement rate in base alla percentuale prevista di interazione. Poiché il dataset non comprende dati con punteggi massimi di engagement rate, le cinque classi non sono distribuite in maniera uniforme. Infatti, le prime quattro sono composte ognuna da un progressivo 15% di engagement, mentre l’ultima comprende punteggi dal 60 al 100%.
Il dataset viene diviso in training set (80%) e validation set (20%) per addestrare e validare l’algoritmo. Gli iperparametri utilizzati sono categotical cross-entropy come loss function, Adam come ottimizzatore, 0.001 come learning rate e 32 come batch size. Il sistema utilizza la tecnica di dropout (20%) per prevenire l’overfitting, e quella di early stopping per fermare l’addestramento quando viene raggiunta la convergenza. Il training avviene utilizzando una stratified K-fold Cross Validation per conferire robustezza al modello.

Questo sistema basato su algoritmi di deep learning permette di predire l’engagement rate di una determinata immagine in base all’orario di pubblicazione e agli hashtag utilizzati.
Le prestazioni del sistema sono buone ed hanno una precisione media del 98,1%, una recall media del 98% e un F1-score medio del 98,8%.

Il sistema potrebbe garantire performance maggiori e predizioni più precise con un training set più bilanciato, ad esempio composto da immagini di account social con lo stesso numero di follower (superiore a 1 milione).