Steven Marron (UNC): “Il settore con più sviluppi sarà quello dei software di riconoscimento”

James Steven Marron è professore al Dipartimento di Statistica e Ricerca operativa all’ Università del North Carolina (UNC) oltre che professore al Dipartimento di Biostatistica alla “UNC Gillings School of Global Public Health”. Le sue ricerche sono frutto di collaborazioni con colleghi nei campi dell’informatica, genetica, medicina, e biologia. La seguente intervista è tratta dall’Outlook Mathesia 2019, una ricerca sui trend e le opportunità dell’utilizzo delle tecnologie di Data Science in ambito industriale.

 

Quale pensa sia il problema più interessante da lei riscontrato nel campo della data science?

Al momento i miei studi sono rivolti alla ricerca sul cancro e per questo motivo collaboro con molti studiosi in ambito medico. La sfida principale riguarda la medicina, e in particolare la medicina di precisione. Gli oncologi finora hanno fornito la stessa cura per ogni tipo di cancro. Certi pazienti, però, non rispondono a questa cura. La sfida è quella di fornire la giusta terapia a ogni persona.

A tal proposito, in che direzione pensa che si svilupperà la ricerca? Verrà creata una terapia per ogni individuo?

È necessaria ancora molta ricerca. Prima sostenevamo che il cancro fosse una malattia, o centinaia di malattie, ma alla luce di questa ricerca abbiamo capito che è più corretto dire migliaia di malattie. Nonostante siano individuabili alcune tendenze e affinità, esistono comunque innumerevoli variazioni, cause e danni che coinvolgono i geni che causano il cancro. Su questo problema stanno lavorando diversi ricercatori e stanno emergendo cure diverse.

 

Crede che la veridicità dell’analisi dei dati e il modo in cui vengono raccolti rappresentino ancora una sfida?

Assolutamente sì. La raccolta dei dati è un aspetto critico, e la progettazione di un esperimento è una parte importante di essa. Un fattore che rappresenta per noi una vera sfida nel mondo del cancro è che un laboratorio, da solo, non può raccogliere dati a sufficienza. Oggi è importante poter disporre di un consorzio di laboratori, dove siano accessibili diversi strumenti di misurazione. Raccogliere questi dati comporta diversi problemi. Per esempio, i miei colleghi sono stati i principali studiosi di un progetto chiamato “The cancer genome math labs”, un consorzio di circa 15-20 laboratori negli Stati Uniti, che hanno lavorato per sviluppare i cosiddetti dati inequivoci, che possono essere combinati in modo significativo. Si tratta di un lavoro davvero impegnativo, e l’idea di determinare una modalità per ottenere informazioni da questi dati è una sfida che mi interessa molto.

 

In quale settore applicativo crede che la data science farà davvero la differenza nei prossimi 4-5 anni? E quale sarà la maggiore sfida della data science in tema di ricerca?

Credo che il settore con più sviluppi sarà quello dei software di riconoscimento. I software di riconoscimento vocale esistono già da un po’, ma esistono altri tipi di applicazione, come quelle, basate sul deep learning, che riconoscono modalità biometriche e oggetti. Credo che la ricerca continuerà a esplorare direzioni innovative a cui ancora non abbiamo pensato, e probabilmente ciò accadrà nei prossimi 4-5 anni. Un esempio interessante è quello dei veicoli a guida autonoma; sicuramente questo campo applicativo ha un enorme potenziale, così come le sfide ad esso associate: ci sarà sempre un margine di errore. C’è spazio per i miglioramenti e per un più preciso calcolo del margine di errore. Per esempio, esiste un campo statistico chiamato “teoria dei valori estremi” grazie al quale i ricercatori calcolano la probabilità di eventi altamente improbabili. Penso che debba essere integrato con tutti i tassi di errore, soprattutto in applicazioni in cui la posta in gioco è molto alta, come nel caso dei veicoli autonomi.

 

Per restare in tema, pensa che tutti questi progressi nel mondo del deep learning e del machine learning debbano essere trattati con cautela o con ottimismo?

In molti, per diverso tempo, hanno condotto analisi sui dati senza tenere conto della statistica. Ricordo bene i primi giorni in cui si è parlato di intelligenza artificiale negli Anni ’70. Gli esperti allora commisero un grave errore nel pubblicizzare l’AI, affermando “I computer saranno in grado di sostituire i dottori”. Cosa crede che pensarono i dottori quando sentirono queste parole? Tra l’altro, a quel tempo l’uso che i medici facevano dei computer era davvero ridotto. Oggi, dato che nessuno parla più di sostituire i dottori, si è molto più cauti e si utilizzano espressioni come “assistenti intelligenti”.

Le reti neurali erano un argomento caldo nei primi Anni ’90. Successe la stessa cosa, e gli studiosi dissero “Risolveremo ogni tipo di problema con le reti neurali”. Provarono quindi ad applicare reti neurali a problemi di diversa natura. Poco più tardi, fallirono. Tuttavia, possono annoverare un grande successo: i software di riconoscimento vocale. Ora sentiamo parlare di deep learning, ma tutto gira attorno alle reti neurali. Perché oggi hanno un impatto così importante? A mio avviso, per due motivi possibili: da un lato, hanno a disposizione database molto più grandi, dall’altro hanno il potere computazionale di gestirli.

 

Quale pensa che sarà la maggiore sfida della data science in tema di ricerca?

La risposta è data science di gruppo. Un centinaio di anni fa la scienza era studiata da una singola persona in un laboratorio. Oggi le grandi sfide possono essere risolte solo da gruppi di ricercatori con diverse competenze. Si chiama ricerca interdisciplinare, e ora anche gli amministratori delle università ne hanno compreso il valore. Penso che sia giunto il momento che la data science consideri il concetto di lavoro di squadra. I problemi di data science a cui lavorano i singoli spesso vengono risolti, ma per rispondere ai grandi quesiti è necessario il lavoro di gruppi di data scientists interdisciplinari. La grande sfida della data science è quella di formare più gruppi di ricerca e insegnare ai ricercatori a collaborare in modo efficace come squadra.

Vuoi ricevere le notizie di Bluerating direttamente nella tua Inbox? Iscriviti alla nostra newsletter!