logo-polimi
Loading...
Risorse bibliografiche
Risorsa bibliografica obbligatoria
Risorsa bibliografica facoltativa
Scheda Riassuntiva
Anno Accademico 2020/2021
Scuola Scuola di Ingegneria Industriale e dell'Informazione
Insegnamento 052466 - BUSINESS DATA ANALYTICS
  • 052465 - BUSINESS DATA ANALYTICS [2]
Docente Secchi Piercesare
Cfu 5.00 Tipo insegnamento Modulo Di Corso Strutturato

Corso di Studi Codice Piano di Studio preventivamente approvato Da (compreso) A (escluso) Insegnamento
Ing Ind - Inf (1 liv.)(ord. 270) - BV (394) INGEGNERIA GESTIONALE*EP052466 - BUSINESS DATA ANALYTICS

Obiettivi dell'insegnamento

Il corso tratta nuovi approcci nelle aree della modellistica statistica e dell'analisi dei dati, usando idee che colmano il divario tra statistica e il machine learning e sviluppano strumenti per il trattamento statistico dei big data. L'attenzione si concentra sull'apprendimento predittivo, con particolare attenzione ai recenti progressi nell'esplorazione, nella regressione e nella classificazione dei dati. Il corso si avvale di un approccio blended learning, facendo ampio uso del MOOC di Statistical Learning di Hastie e Tibshirani a cui fa riferimento la Bibliografia.

Il corso si inserisce nel curriculum del programma complessivo perseguendo alcuni degli obiettivi generali di apprendimento. In particolare, il corso contribuisce allo sviluppo delle seguenti capacità:

  • Progettare soluzioni applicando un approccio scientifico e ingegneristico (capacità di analisi, apprendimento, ragionamento e modellizzazione derivanti da un solido e rigoroso background multidisciplinare) per affrontare problemi e opportunità in un ambiente aziendale e industriale
  • Interagire in modo professionale, responsabile, efficace e costruttivo in un ambiente di lavoro.

Risultati di apprendimento attesi

Alla fine del corso, gli studenti saranno in grado di progettare ed eseguire con R un'analisi data-driven volta a un problema di classificazione, sia supervisionato che non supervisionato, o alla costruzione di un modello di regressione, gestendo diversi approcci alla selezione del modello. Sfruttando la propria forma mentis ingegneristica e le capacità di analisi dei dati acquisite nel corso, ci si aspetta che gli studenti siano in grado di valutare il significato pratico e statistico del risultato finale dell'analisi dei dati, quantificarne l'incertezza e diagnosticare le sue potenziali carenze, sia nel caso questo debba essere utilizzato per fornire una spiegazione empirica del problema industriale o scientifico oggetto di studio, sia quando il suo obiettivo principale è formulare previsioni.


Argomenti trattati

0) MOOC di livellamento

  • Introduzione a R
  • Esplorazione grafica e analisi descrittiva per dati univariati

1) Introduzione allo statistical learning

  • Inferenza (test) per due popolazioni. One way and two way ANOVA per dati univariati
  • Analisi multivariate: esplorazione, quantificazione della dipendenza (matrice di varianza/covarianza)
  • Riduzione dimensionale: Analisi delle Componenti Principali, Analisi Discriminante Canonica di Fisher

2) Modelli Lineari (Generalizzati)

  • Regressione lineare semplice e multipla. Stima dei coefficienti, valutazione dell’accuratezza della stima dei coefficienti, valutazione dell’accuratezza del modello. Predittori qualitativi. PRESS.
  • Selezione del modello e regolarizzazione: subset selection, metodi di shrinkage (ridge regression e lasso).
  • Regressione logistica (binaria and multinomiale). Sensitività, Specificità, Curva ROC

3) Regressione non parametrica, classificazione e clustering

  • Regressione e classificazione supervisionata: LDA, KNN, CART, Random Forest.
  • Classificazione non supervisionata. Clustering gerarchico e K-means
  • Cross Validazione

Seguendo un approccio di apprendimento misto, il corso utilizzerà ampiamente il MOOC di Statistical Learning di Hastie e Tibshirani a cui si fa riferimento nella Bibliografia. Tutti i metodi saranno illustrati utilizzando applicazioni di marketing, finanza, biologia e altre aree di interesse scientifico e industriale. Durante il corso e le sessioni di laboratorio, verrà utilizzato e illustrato l'ambiente software R per la statistica computazionale e la rappresentazione grafica (liberamente scaricabile da www.r-project.org).


Prerequisiti

Conoscenza di base di probabilità, statistica e analisi.


Modalità di valutazione

L’esame del modulo è integrato nell’esame finale del corso.

L’esame del corso integrato consiste di una prima parte (Parte A) con domande a risposta multipla, e di una seconda parte (Parte B) consistente in esercizi, da svolgere con l’eventuale ausilio del software R.
Si rimanda alla scheda del corso integrato per i dettagli delle modalità d’esame.

In sede d'esame, lo studente dovrà:

  • dimostrare il grado di comprensione degli aspetti fondamentali dell'insegnamento, esponendo in
    modo chiaro ed esaustivo le metodologie utilizzate;
  • dimostrare la propria capacità di applicare le nozioni apprese per risolvere esercizi e problemi
    concreti, i quali potranno vertere su qualunque argomento trattato nel programma.

La composizione della valutazione terrà conto anche della chiarezza di esposizione e della correttezza nei risultati.


Bibliografia
Risorsa bibliografica obbligatoriaStatistical Learning MOOC by Hastie and Tibshirani https://www.edx.org/course/statistical-learning
Risorsa bibliografica facoltativaJames G., Witten D., Hastie T. and Tibshirani R., An introduction to statistical learning, with application to R, Editore: Springer, New York, Anno edizione: 2013 http://www-bcf.usc.edu/gareth/ISL/getbook.html
Risorsa bibliografica facoltativaJohnson, R.A. and Wichern, D.W., Applied Multivariate Statistical Analysis (sixth edition), Editore: Prentice Hall, Anno edizione: 2007
Risorsa bibliografica facoltativaHastie, T., Tibshirani, R. and Friedman, J., The Elements of Statistical Learning: data mining, inference and prediction., Editore: Springer-Verlag, New York, Anno edizione: 2009

Forme didattiche
Tipo Forma Didattica Ore di attività svolte in aula
(hh:mm)
Ore di studio autonome
(hh:mm)
Lezione
25:00
48:45
Esercitazione
0:00
26:15
Laboratorio Informatico
25:00
0:00
Laboratorio Sperimentale
0:00
0:00
Laboratorio Di Progetto
0:00
0:00
Totale 50:00 75:00

Informazioni in lingua inglese a supporto dell'internazionalizzazione
Insegnamento erogato in lingua Italiano
Disponibilità di libri di testo/bibliografia in lingua inglese
Possibilità di sostenere l'esame in lingua inglese
Disponibilità di supporto didattico in lingua inglese
schedaincarico v. 1.6.5 / 1.6.5
Area Servizi ICT
18/01/2021