logo-polimi
Loading...
Risorse bibliografiche
Risorsa bibliografica obbligatoria
Risorsa bibliografica facoltativa
Scheda Riassuntiva
Anno Accademico 2020/2021
Scuola Scuola di Ingegneria Industriale e dell'Informazione
Insegnamento 052466 - BUSINESS DATA ANALYTICS
Docente Pammolli Fabio , Secchi Piercesare
Cfu 10.00 Tipo insegnamento Corso Integrato

Corso di Studi Codice Piano di Studio preventivamente approvato Da (compreso) A (escluso) Insegnamento
Ing Ind - Inf (1 liv.)(ord. 270) - BV (394) INGEGNERIA GESTIONALE*EP052466 - BUSINESS DATA ANALYTICS

Obiettivi dell'insegnamento

La prima parte del corso tratta nuovi approcci nelle aree della modellistica statistica e dell'analisi dei dati, usando idee che colmano il divario tra statistica e il machine learning e sviluppano strumenti per il trattamento statistico dei big data. L'attenzione si concentra sull'apprendimento predittivo, con particolare attenzione ai recenti progressi nell'esplorazione, nella regressione e nella classificazione dei dati.

La seconda parte del corso si concentra principalmente su applicazioni in ambito di business analytics. Il corso si concentrerà sull’approfondimento di strumenti di analisi dei dati in quattro ambiti applicati: la churn analytics e la segmentazione, i metodi inferenziali per la stima degli effetti causali in ambito industriale, di management ed economico, l’analisi dei dati di network, l’analisi della crescita e della diversificazione delle imprese.

I temi verranno affrontati sia sul terreno teorico e dei metodi, sia sul piano applicativo, presentando e approfondendo specifici ambiti di studio. Per far questo il corso si avvale di un approccio blended learning, facendo ampio uso nella prima parte del corso del MOOC di Statistical Learning di Hastie e Tibshirani a cui fa riferimento la Bibliografia, mentre nella seconda parte del corso le lezioni saranno accompagnate da sessioni di analisi pratica e di programmazione, in cui gli studenti saranno chiamati a sperimentare i metodi approfonditi a lezione su dataset reali.

Il corso si inserisce nel curriculum del programma complessivo perseguendo alcuni degli obiettivi generali di apprendimento. In particolare, il corso contribuisce allo sviluppo delle seguenti capacità:

  • Progettare soluzioni applicando un approccio scientifico e ingegneristico (capacità di analisi, apprendimento, ragionamento e modellizzazione derivanti da un solido e rigoroso background multidisciplinare) per affrontare problemi e opportunità in un ambiente aziendale e industriale
  • Interagire in modo professionale, responsabile, efficace e costruttivo in un ambiente di lavoro.

Risultati di apprendimento attesi

Alla fine del corso, lo studente:

  • Sarà in grado di progettare ed eseguire con R un'analisi data-driven volta a un problema di classificazione, sia supervisionato che non supervisionato, o alla costruzione di un modello di regressione, gestendo diversi approcci alla selezione del modello.
  • Sfruttando la propria forma mentis ingegneristica e le capacità di analisi dei dati acquisite nel corso, sarà in grado di valutare il significato pratico e statistico del risultato finale dell'analisi dei dati, quantificarne l'incertezza e diagnosticare le sue potenziali carenze, sia nel caso questo debba essere utilizzato per fornire una spiegazione empirica del problema industriale o scientifico oggetto di studio, sia quando il suo obiettivo principale è formulare previsioni.
  • Sarà in grado di selezionare i metodi più opportuni per l’identificazione di effetti causali e per la valutazione dell’efficacia di un trattamento in ambito economico e finanziario; sarà in grado di selezionare i metodi più opportuni per l’analisi delle proprietà topologiche di una rete complessa; comprenderà metodi di clusterizzazione e classificazione di dataset ad alta dimensionalità; comprenderà gli strumenti di base per modellazione di processi stocastici, con particolare riferimento a leggi di accrescimento e a problemi di instabilità.

Sarà in grado di estrarre informazioni significative da grandi quantità di dati e di comunicare, trasferire ed interpretare i risultati in modo efficace


Argomenti trattati

MODULO I

 

  • MOOC di livellamento
    • Introduzione a R
    • Esplorazione grafica e analisi descrittiva per dati univariati

 

  • Introduzione allo statistical learning
    • Inferenza (test) per due popolazioni. One way and two way ANOVA per dati univariate
    • Analisi multivariate: esplorazione, quantificazione della dipendenza (matrice di varianza/covarianza)
    • Riduzione dimensionale: Analisi delle Componenti Principali, Analisi Discriminante Canonica di Fisher

 

2) Modelli Lineari (Generalizzati)

  • Regressione lineare semplice e multipla. Stima dei coefficienti, valutazione dell’accuratezza della stima dei coefficienti, valutazione dell’accuratezza del modello. Predittori qualitativi. PRESS.
  • Selezione del modello e regolarizzazione: subset selection, metodi di shrinkage (ridge regression e lasso).
  • Regressione logistica (binaria and multinomiale). Sensitività, Specificità, Curva ROC

 

3) Regressione non parametrica, classificazione e clustering

  • Regressione e classificazione supervisionata: LDA, KNN, CART, Random Forest.
  • Classificazione non supervisionata. Clustering gerarchico e K-means
  • Cross Validazione

Seguendo un approccio di apprendimento misto, il corso utilizzerà ampiamente il MOOC di Statistical Learning di Hastie e Tibshirani a cui si fa riferimento nella Bibliografia. Tutti i metodi saranno illustrati utilizzando applicazioni di marketing, finanza, biologia e altre aree di interesse scientifico e industriale. Durante il corso e le sessioni di laboratorio, verrà utilizzato e illustrato l'ambiente software R per la statistica computazionale e la rappresentazione grafica (liberamente scaricabile da www.r-project.org).

MODULO II

  • Introduzione ai metodi causali per l’inferenza statistica applicata all’economia e al management.
    • Teoria degli studi controllati randomizzati
    • Metodi per l’identificazione e la stima degli effetti causali
    • Regression discontinuity design
    • Diff-in-diff
    • Variabili strumentali
  • Introduzione alla teoria dei network, con particolare riferimento agli ambiti di management, organizzazione e per lo studio delle reti tra imprese e dei fattori d’instabilità nei sistemi economici, industriali e finanziari:
    • Definizione concettuale ed algebrica di un network
    • Misure globali e locali
    • Algoritmi di centralità
    • Clustering, community detection, struttura core-periphery
  • Classificazione e clustering in management science:
    • Segmentazione di cliente e prodotto
    • Churn analytics
  • Crescita delle imprese e analisi dei dati di struttura e dinamica industriale:
    • Analisi di crescita, volatilità, dimensione delle imprese, innovazione, turnover, composizione del portafogli prodotti
    • Presentazione delle distribuzioni più note e controllo dei parametri rilevanti, cosa significa fare fitting di una distribuzione, metodi e test per valutare se i dati provengono da una certa distribuzione (KS test), confronto di distribuzioni. Sviluppo di analisi simulative e di esercizi di forecasting.

I metodi e gli argomenti saranno illustrati usando dataset effettivi per applicazioni di business e di finanza. A questo fine sarà utilizzato il software libero per l’analisi statistica R (scaricabile da www.r-project.org ) con tutorial esemplificativi illustrati durante le sessioni di laboratorio. Ciascuna esercitazione sarà effettuata a valle delle lezioni teoriche in modo da consentire allo studente la comprensione dell’applicabilità dei modelli studiati.


Prerequisiti

Conoscenza di base di probabilità, statistica e analisi.


Modalità di valutazione

L’esame del corso integrato consiste di una prima parte (Parte A) con domande a risposta multipla, e di una seconda parte (Parte B) consistente in esercizi, da svolgere con l’eventuale ausilio del software R.

La valutazione della Parte B avverrà solo se lo studente avrà risposto correttamente ad almeno il 40% delle domande della Parte A. In caso contrario l'elaborato verrà giudicato insufficiente.

 

In sede d'esame, lo studente dovrà:

  • dimostrare il grado di comprensione degli aspetti fondamentali dell'insegnamento, esponendo in
    modo chiaro ed esaustivo le metodologie utilizzate;
  • dimostrare la propria capacità di applicare le nozioni apprese per risolvere esercizi e problemi
    concreti, i quali potranno vertere su qualunque argomento trattato nel programma.

 

La composizione della valutazione terrà conto anche della chiarezza di esposizione e della correttezza nei risultati.

 

 

 

 


Bibliografia
Risorsa bibliografica obbligatoriaHastie and Tibshirani, Statistical Learning MOOC https://www.edx.org/course/statistical-learning
Risorsa bibliografica obbligatoriaJames G., Witten D., Hastie T. and Tibshirani R, An introduction to statistical learning, with application to R, Editore: Springer, New York, Anno edizione: 2013 http://www-bcf.usc.edu/~gareth/ISL/getbook.html
Risorsa bibliografica obbligatoriaJohnson, R.A. and Wichern, D.W., Applied Multivariate Statistical Analysis (Sixth Edition), Editore: Prentice Hall, Anno edizione: 2007
Risorsa bibliografica obbligatoriaHastie, T., Tibshirani, R. and Friedman, J., The Elements of Statistical Learning: data mining, inference and prediction., Editore: Springer-Verlag, New York, Anno edizione: 2009
Risorsa bibliografica obbligatoriaTaddy, M., Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions, Editore: McGraw-Hill Education, Anno edizione: 2019
Risorsa bibliografica obbligatoriaProvost, F. and Fawcett,T, Data Science For Business: What You Need to Know About Data Mining And Data-Analytic Thinking, Editore: O'Reilly Publishing, Anno edizione: 2013
Risorsa bibliografica obbligatoriaBarabási , A, Network Science, Editore: Cambridge University Press., Anno edizione: 2016
Risorsa bibliografica obbligatoriaS. V. Buldyrev, F. Pammolli, M. Riccaboni, H. E. Stanley, The Rise and Fall of Business Firms: A Stochastic Framework on Innovation, Creative Destruction and Growth, Editore: Cambridge University Press., Anno edizione: 2020

Forme didattiche
Tipo Forma Didattica Ore di attività svolte in aula
(hh:mm)
Ore di studio autonome
(hh:mm)
Lezione
57:00
97:30
Esercitazione
0:00
52:30
Laboratorio Informatico
43:00
0:00
Laboratorio Sperimentale
0:00
0:00
Laboratorio Di Progetto
0:00
0:00
Totale 100:00 150:00

Informazioni in lingua inglese a supporto dell'internazionalizzazione
Insegnamento erogato in lingua Italiano
Disponibilità di libri di testo/bibliografia in lingua inglese
Possibilità di sostenere l'esame in lingua inglese
Disponibilità di supporto didattico in lingua inglese
schedaincarico v. 1.6.5 / 1.6.5
Area Servizi ICT
18/01/2021