N. Luglio 2018
a cura di Camilla Bellini
Senior Analyst, The Innovation Group
Questo mese abbiamo fatto colazione con…
Vincenzo Manzoni, Data Science Director di Tenaris Dalmine
Abbiamo intervistato Vincenzo Manzoni, Data Science Director di Tenaris Dalmine, su quale sia il ruolo dell’AI in Tenaris Dalmine e quali siano le sfide nello sviluppo di modelli di machine learning in azienda.
Oggi si parla sempre più spesso di Data Science, Machine Learning e Artificial Intelligence. Qual è la relazione esistente tra questi tre termini?
L’artificial intelligence è solo uno degli strumenti che un data scientist ha a diposizione. In particolare, la maggior parte delle soluzioni che oggi noi vediamo sul mercato nell’ambito dell’artificial intelligence appartengono ad un sottoinsieme ulteriore dell’AI, ossia il machine learning. Storicamente, il machine learning nasce intorno agli anni ’80 per superare i problemi tradizionali dell’artificial intelligence, per cui le persone dovevano codificare a mano le regole logiche ed era molto complesso individuarle, soprattutto in contesti in cui le variabili sono molteplici; viceversa, il machine learning permette di ricavare automaticamente le regole a partire dai dati. Premesso questo, il machine learning è solo uno degli strumenti che un dipartimento di data science e un data scientist possono utilizzare. Per esempio, il dipartimento che coordino, ovvero il dipartimento di data science per i processi industriali, realizza due famiglie di prodotti: la prima riguarda le visualizzazioni dei dati interattive, dove i dati sono big data, dati ricavati da milioni di osservazioni, che richiedono uno stack tecnologico specifico; la seconda sono i modelli di machine learning e più in generale dei modelli di artificial intelligence. Lo scenario tipo consiste in un modello di machine learning integrato in un sistema esistente attraverso API (interfacce di comunicazione standard). Il sistema interroga il modello e sulla base della risposta prende una decisione. Un secono scenario è quello in cui il modello di machine learning fornisce informazioni all’utente, al quale spetta il compito di prendere la decisione finale. Per esempio, abbiamo in produzione un modello di forecast dell’energia elettrica consumata, che fornisce l’informazione all’utente il quale, tenendo conto di tutto il contesto, decide quello che deve fare. Tenete conto che, comunque, raramente un algoritmo viene lasciato ad imparare e funzionare autonomamente sul campo, senza supervisione. Sono rari i casi e di norma accade in contesti molto ben perimetrati, altrimenti c’è il rischio che il modello prenda decisioni al di fuori del proprio contesto.
Quali sono i passi più critici nella definizione di un modello di artificial intelligence?
In primis la raccolta dei dati, la cui quantità deve essere definita dalla struttura del problema e dal numero di variabili coinvolte nella previsione. In particolare, una regola empirica vuole che se si ha un problema che utilizza un certo numero di variabili diverse, questa regola afferma che servono tra i 50 e i 100 esempi per ogni variabile per costruire un modello che abbia buone probabilità di generalizzare il fenomeno; altrimenti, si rischia di creare modelli che imparano a memoria i dati su cui sono stati addestrati. Questa regola fornisce un ordine di grandezza della numerosità minima in termini di dati disponibili per avere un modello generale. Dopo la fase di raccolta dati c’è la fase di training, che a mio avviso è quella di minor difficoltà, a patto di avere delle persone con competenze specifiche in questo ambito. Tenete conto però che queste professionalità oggi sul mercato costano molto, sono difficili da trovare e per assumerle devi diventare prima di tutto un’azienda attrattiva per queste figure. A parte questo tema, la fase del training resta una fase per lo più consolidata. La parte critica, a mio avviso, viene dopo: una volta che il modello è stato addestrato sul proprio pc, come si integra con un sistema legacy esistente? A questo punto entrano in gioco temi socio-tecnici che dipendono dalla tecnologia dei sistemi esistenti, dall’organizzazione aziendale e dal rapporto con il dipartimento IT.
A suo avviso, oggi la tecnologia necessaria per fare queste cose è già disponibile? O meglio, il mercato oggi offre tutto quello che serve?
Se si è capaci di scegliere, secondo me sì. Resta comunque la difficoltà di saper scegliere, perché spesso è difficile capire se una tecnologia che viene annunciata da piccole start up o aziende è qui per restare. Noi per capirlo usiamo alcune euristiche: leggiamo i report tecnologici di rinomate agenzie (ad esempio, Gartner), guardiamo quanto è l’installato di quella tecnologia e se c’è una community open source forte alle spalle. Se c’è una community, anche se l’azienda originale che sponsorizza il primo sviluppo abbandona la tecnologia, questa può andare avanti da sola. Resta il fatto che, lato domanda, le persone per scegliere bene devono avere sviluppato un po’ di esperienza. In ogni caso, io prevedo che questa situazione sarà transitoria, che tra qualche anno sarà un po’ come usare le librerie adesso.
Ad oggi il software che voi utilizzate è tutto open source?
Sì, noi abbiamo adottato questa filosofia, abbiamo integrato tecnologia open source, con l’eccezione delle soluzioni che utilizziamo per fare la visualizzazione dei dati interattiva: in questo caso la tecnologia che utilizziamo è quella di Tableau.
Ci sono poi player come IBM, AWS, Microsoft, Google e altri che offrono tecnologia a supporto del machine learning e dell’artificial intelligenze….
Questi player stanno dando una grossa mano ai data scientist: per esempio, fornendo servizi di riconoscimento immagini e analisi del testo. In alcuni casi specifici invece non c’è altra soluzione che partire da zero, per esempio per il riconoscimento di immagini specifiche per il proprio dominio di cui non esistano modelli pre-addestrati. Tuttavia, anche per queste applicazioni, i principali player stanno iniziando a fornire modelli pre-addestrati da specificare con poche immagini per il proprio dominio.
Un’ultima domanda: come è nata l’esigenza in Tenaris Dalmine di sviluppare un team di Data Science?
Il mio percorso in Tenaris è iniziato nel 2011. A quel tempo, mi occupavo di sviluppare sistemi di controllo di processo, ossia software che leggono dai dati di campo, applicano delle regole migliorano il processo pezzo dopo pezzo. Questi sistemi generano tantissimi dati che abbiamo iniziato ad usare per supportare analisi tecniche. La svolta c’è stata nel 2015, quando Tenaris ha vinto un appalto molto importante. Insieme agli esperti del nostro processo di produzione, usando tecnologie tradizionali abbiamo creato alcune interfacce interattive per permettere loro ottimizzare il più possibile il processo di produzione dal punto di vista dei costi. Sulla base dei risultati positivi di quest’attività e di nuove opportunità imminenti, Tenaris ha deciso di investire su un team dedicato, supportato da una infrastruttura tecnologica adeguata, basata su tecnologie genuinamente Big Data. Da quel momento in poi, che era il 2016, abbiamo avuto un’infrastruttura idonea per poter sviluppare tanti altri progetti. Da lì ci sono state sempre più domande e abbiamo cominciato ad arricchire il nostro Data Lake: adesso quando ci viene fatta una richiesta, se i dati sono già presenti nel Data Lake, siamo in grado di dare risposte in tempi brevi (la maggior parte delle volte in meno di due settimane).
Ricevi gli articoli degli analisti di The Innovation Group e resta aggiornato sui temi del mercato digitale in Italia!