 |
Risorsa bibliografica obbligatoria |
 |
Risorsa bibliografica facoltativa |
|
Corso di Studi |
Codice Piano di Studio preventivamente approvato |
Da (compreso) |
A (escluso) |
Insegnamento |
Ing Ind - Inf (1 liv.)(ord. 270) - BV (394) INGEGNERIA GESTIONALE | * | A | CO | 052466 - BUSINESS DATA ANALYTICS |
Obiettivi dell'insegnamento |
La prima parte del corso tratta nuovi approcci nelle aree della modellistica statistica e dell'analisi dei dati, usando idee che colmano il divario tra statistica e il machine learning e sviluppano strumenti per il trattamento statistico dei big data. L'attenzione si concentra sull'apprendimento predittivo, con particolare attenzione ai recenti progressi nell'esplorazione, nella regressione e nella classificazione dei dati.
La seconda parte del corso si concentra principalmente su applicazioni in ambito di business analytics. I temi verranno affrontati sia sul piano teorico e dei metodi sia su quello applicativo, presentando ed approfondendo specifici ambiti di studio legati a tematiche di management ed economia.
I temi verranno affrontati sia sul terreno teorico e dei metodi, sia sul piano applicativo, presentando e approfondendo specifici ambiti di studio. Per far questo il corso si avvale di un approccio blended learning, facendo ampio uso nella prima parte del corso del MOOC di Statistical Learning di Hastie e Tibshirani a cui fa riferimento la Bibliografia, mentre nella seconda parte del corso, le lezioni saranno accompagnate da sessioni di analisi pratica e di programmazione, in cui gli studenti saranno chiamati a sperimentare ed applicare i metodi approfonditi a lezione utilizzando R su dataset.
Il corso si inserisce nel curriculum del programma complessivo perseguendo alcuni degli obiettivi generali di apprendimento. In particolare, il corso contribuisce allo sviluppo delle seguenti capacità:
- Progettare soluzioni applicando un approccio scientifico e ingegneristico (capacità di analisi, apprendimento, ragionamento e modellizzazione derivanti da un solido e rigoroso background multidisciplinare) per affrontare problemi e opportunità in un ambiente aziendale e industriale
- Interagire in modo professionale, responsabile, efficace e costruttivo in un ambiente di lavoro.
|
Risultati di apprendimento attesi |
Alla fine del corso, lo studente:
- Sarà in grado di progettare ed eseguire con R un'analisi data-driven volta a un problema di classificazione, sia supervisionato che non supervisionato, o alla costruzione di un modello di regressione, gestendo diversi approcci alla selezione del modello.
- Sfruttando la propria forma mentis ingegneristica e le capacità di analisi dei dati acquisite nel corso, sarà in grado di valutare il significato pratico e statistico del risultato finale dell'analisi dei dati, quantificarne l'incertezza e diagnosticare le sue potenziali carenze, sia nel caso questo debba essere utilizzato per fornire una spiegazione empirica del problema industriale o scientifico oggetto di studio, sia quando il suo obiettivo principale è formulare previsioni.
- Sarà in grado di selezionare i metodi più opportuni per l’identificazione di effetti causali e per la valutazione dell’efficacia di un trattamento in ambito economico e finanziario; sarà in grado di selezionare i metodi più opportuni per l’analisi delle proprietà topologiche di una rete complessa; comprenderà metodi di clusterizzazione e classificazione di dataset ad alta dimensionalità; comprenderà gli strumenti di base per modellazione di processi stocastici, con particolare riferimento a leggi di accrescimento e a problemi di instabilità.
- Sarà in grado di estrarre informazioni significative da grandi quantità di dati e di comunicare, trasferire ed interpretare i risultati in modo efficace.
|
MODULO I
0) MOOC di livellamento
- Introduzione a R
- Esplorazione grafica e analisi descrittiva per dati univariati
1) Introduzione allo statistical learning
- Inferenza (test) per due popolazioni. One way and two way ANOVA per dati univariati
- Analisi multivariate: esplorazione, quantificazione della dipendenza (matrice di varianza/covarianza)
- Riduzione dimensionale: Analisi delle Componenti Principali
2) Modelli Lineari (Generalizzati)
- Regressione lineare semplice e multipla. Stima dei coefficienti, valutazione dell’accuratezza della stima dei coefficienti, valutazione dell’accuratezza del modello. Predittori qualitativi.
- Selezione del modello e regolarizzazione: subset selection, metodi di shrinkage (ridge regression e lasso).
- Regressione logistica (binaria and multinomiale). Sensitività, Specificità, Curva ROC
3) Regressione non parametrica, classificazione e clustering
- Regressione e classificazione supervisionata: KNN, CART, Random Forest.
- Classificazione non supervisionata. Clustering gerarchico e K-means
- Cross Validazione
Seguendo un approccio di apprendimento misto, il corso utilizzerà ampiamente il MOOC di Statistical Learning di Hastie e Tibshirani a cui si fa riferimento nella Bibliografia. Tutti i metodi saranno illustrati utilizzando applicazioni di marketing, finanza, biologia e altre aree di interesse scientifico e industriale. Durante il corso e le sessioni di laboratorio, verrà utilizzato e illustrato l'ambiente software R per la statistica computazionale e la rappresentazione grafica (liberamente scaricabile da www.r-project.org).
MODULO II
- Introduzione ai metodi causali per l’inferenza statistica applicata all’economia e al management.
- Teoria degli studi controllati randomizzati
- Metodi per l’identificazione e la stima degli effetti causali
- Variabili strumentali
- Regression discontinuity design
- Introduzione alla teoria dei network, con particolare riferimento agli ambiti di management, organizzazione e per lo studio delle reti tra imprese e dei fattori d’instabilità nei sistemi economici, industriali e finanziari:
- Definizione concettuale ed algebrica di un network
- Misure globali e locali
- Algoritmi di centralità
- Clustering, community detection, struttura core-periphery
I metodi e gli argomenti saranno illustrati usando dataset per applicazioni in ambito management ed economia. A questo fine sarà utilizzato il software libero per l’analisi statistica R (scaricabile da www.r-project.org ) con tutorial esemplificativi illustrati durante le sessioni di laboratorio. Ciascuna esercitazione sarà effettuata a valle delle lezioni teoriche in modo da consentire allo studente la comprensione dell’applicabilità dei modelli studiati.
|
Obiettivi di sviluppo sostenibile - SDGs |
Conoscenza di base di probabilità, statistica e analisi.
|
L’esame del modulo è integrato nell’esame finale del corso.
L’esame del corso integrato consiste di una parte con domande a risposta multipla, e di una parte consistente in esercizi, da svolgere con l’eventuale ausilio del software R. Si rimanda alla scheda del corso integrato per i dettagli delle modalità d’esame.
In sede d'esame, lo studente dovrà:
- dimostrare il grado di comprensione degli aspetti fondamentali dell'insegnamento, esponendo in
modo chiaro ed esaustivo le metodologie utilizzate;
- dimostrare la propria capacità di applicare le nozioni apprese per risolvere esercizi e problemi
concreti, i quali potranno vertere su qualunque argomento trattato nel programma.
La composizione della valutazione terrà conto anche della chiarezza di esposizione e della correttezza nei risultati.
|
Statistical Learning MOOC by Hastie and Tibshirani https://www.edx.org/course/statistical-learning
James G., Witten D., Hastie T. and Tibshirani R., An introduction to statistical learning, with application to R , Editore: Springer, New York, Anno edizione: 2013 http://www-bcf.usc.edu/gareth/ISL/getbook.html
Johnson, R.A. and Wichern, D.W., Applied Multivariate Statistical Analysis (sixth edition), Editore: Prentice Hall, Anno edizione: 2007
Hastie, T., Tibshirani, R. and Friedman, J., The Elements of Statistical Learning: data mining, inference and prediction., Editore: Springer-Verlag, New York, Anno edizione: 2009
Taddy, M., Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions, Editore: McGraw-Hill Education, Anno edizione: 2019
Provost, F. and Fawcett,T., Data Science For Business: What You Need to Know About Data Mining And Data-Analytic Thinking, Editore: O'Reilly Publishing, Anno edizione: 2013
Barabási , A., Network Science, Editore: Cambridge University Press, Anno edizione: 2016
|
Nessun software richiesto |
Forma Didattica |
Ore Didattica Assistita (hh:mm) |
% Didattica Assistita |
DIDATTICA TRASMISSIVA/FRONTALE
|
51:00
|
53.7 %
|
DIDATTICA INTERATTIVA/PARTECIPATIVA
|
0:00
|
0.0 %
|
DIDATTICA VALUTATIVA
|
0:00
|
0.0 %
|
DIDATTICA LABORATORIALE
|
44:00
|
46.3 %
|
DIDATTICA PROGETTUALE
|
0:00
|
0.0 %
|
Totale ore didattica assistita (hh:mm)
|
95:00 |
Totale ore di studio autonomo (hh:mm)
|
155:00 |
Informazioni in lingua inglese a supporto dell'internazionalizzazione |
Insegnamento erogato in lingua

Italiano
|
|