I dati sintetici
sono dati informatici generati artificialmente a immagine di quelli “reali”. E
hanno il potere di avvicinare le elaborazioni dell’intelligenza artificiale
sempre più a quelle del cervello umano. Sembra una boutade, parlare di dati
generati sinteticamente, in un mondo dove esiste una sovra-abbondanza di informazioni.
Il punto è che però non sempre questo fiume in piena è fatto di informazioni di
qualità e libere da bias. Allora, meglio generarne un gemello digitale, artificiale,
per addestrare gli algoritmi di Ai in maniera efficace. Con questa tecnologia,
si potrebbe colmare il gap tra le intenzioni delle aziende di applicare l’Ai in
produzione e l’impossibilità effettiva di farlo. Secondo la Global Survey 2022 di McKinsey infatti, negli ultimi cinque anni la quota
di inziative in campo Ai nelle aziende è più che raddoppiata portandosi dal 20% del 2017
al 50% del 2022. Tuttavia, ci sono diverse altre analisi che mostrano come
ancora nel 2022 la maggior parte delle iniziative di intelligenza artificiale
(nell’ordine del 60%-80%) non entri in produzione. E la ragione sta nel fatto
che non si ha accesso alle informazioni decisive. I dati sintetici vengono in
soccorso in tutti i campi che necessitano di molti dati per migliorare i
processi: assicurazioni, finanza, energia, telecomunicazioni, mobilità urbana,
retail – per citarne alcuni. Società come Amazon, American Express, John Deere
li utilizzano già di prassi per la gestione delle frodi, per il training di
sistema di riconoscimento del linguaggio di Alexa, per le simulazioni nel
Metaverso.
Un matrimonio che porta i dati sintetici nel mondo bancario
È in questo
contesto che si inserisce la partnership tra Clearbox AI, start-up italiana
nata all’Incubatore del Politecnico di Torino e che si occupa proprio di dati
sintetici, e BearingPoint, società multinazionale indipendente di consulenza
gestionale e tecnologica. Dalla sinergia tra le due società è nato un primo
prodotto rivolto a banche e istituzioni finanziarie, che ha l’obiettivo di fornire
loro modelli di fraud detection più robusti e performanti.
I modelli di fraud
detection si basano sulla raccolta e analisi delle informazioni riguardanti le
frodi: “l’AI impara a riconoscere potenziali attività fraudolente a partire
dallo “studio” delle caratteristiche dei casi registrati in passato – spiega
Shalini Kurapati, Co-Founder e CEO di Clearbox AI – Tuttavia, gli esempi di
frode da cui i modelli dovrebbero imparare sono (fortunatamente) rari e sono
caratterizzati da una grande variabilità nel tempo. Questo porta a una minore
affidabilità della componente predittiva nell’identificazione delle truffe. I
dati sintetici permettono all’intelligenza artificiale di essere addestrata a
partire da una raccolta di informazioni più completa e robusta”.
“L’utilizzo della
tecnologia in cui Clearbox è specializzata – afferma Piergiorgio Stano, Head of
Data & Analytics di BearingPoint – ci permette di rafforzare ulteriormente
la nostra offerta in ambito fraud detection. Combinando i dati sintetici con i
nostri modelli di machine learning possiamo infatti offrire alle imprese
performance altissime che permetteranno loro di risolvere numerosi problemi
legati alla raccolta e all’analisi dei dati”.
Problemi che sono
legati anche alla condivisione (in particolare in relazione alla privacy e al
GDPR) la qualità e la quantità dei dati. “I dati sintetici – continua Kurapati
-possono risolvere questi problemi proprio perché sono generati artificialmente
da algoritmi di intelligenza artificiale sulla base dei dati originali, dei
quali mantengono le proprietà statistiche e il potere predittivo, risultando
quindi realistici. Essendo simili ma non uguali ai dati reali, non contengono
informazioni personali e possono essere condivisi rispettando i regolamenti di
privacy, come il GDPR”.
Tutti i vantaggi dei dati sintetici
Un ulteriore
vantaggio dell’utilizzo di dati sintetici è liberare il lavoro di qualità dei
data scientist che oggi impiegano l’80% del loro tempo a selezionare, ordinare
e pulire i dati (Osservatorio Big Data del Politecnico di Milano). Con quelli
sintetici potrebbero invertire la rotta e dedicare la maggior parte del loro
tempo all’analisi vera e propria, che sta alla base della creazione degli
algoritmi.
I dati sintetici
permettono inoltre di simulare scenari futuri: “uno dei problemi dei dati
reali è che sono storici, permettono di valutare solo eventi già accaduti e
possono quindi diventare obsoleti – spiega Kurapita – Per esempio, il COVID ha
impattato in maniera rilevante le abitudini delle persone: pensiamo agli
spostamenti in auto per andare a lavoro, con il relativo formarsi di code in
città o ai caselli. L’utilizzo estensivo del remote working ha cambiato
pesantemente i flussi di veicoli sulle strade, così tutti i dati storici
relativi agli spostamenti delle persone hanno perso una parte significativa del
loro valore predittivo”.
Infine i dati
sintetici possono essere utili anche per testare se le intelligenze artificiali
hanno dei pregiudizi (o bias): “se può sembrare strano che una “macchina”
possa avere un pregiudizio, bisogna ricordare che i sistemi di AI imparano
immagazzinando grandi quantità di informazioni. Ma i dati storici possono
essere viziati da pregiudizi sociali del tempo a cui si riferiscono. Testare le
intelligenze artificiali con i dati sintetici può invece aiutare ad
identificare e neutralizzare tali pregiudizi nascosti e potenzialmente
fuorvianti”, conclude Stano.
Quali banche o altri intermediari finanziari offrono soluzioni basate su AI? Quali sono i vantaggi per l’investitore?
Con il servizio Chiedi agli esperti di We Wealth puoi contattare gratuitamente un professionista che ti potrà guidare nella scelta dei migliori investimenti e nella gestione del tuo patrimonio. Fai una domanda a uno dei 300 esperti disponibili su We Wealth.