logo-polimi
Loading...
Risorse bibliografiche
Risorsa bibliografica obbligatoria
Risorsa bibliografica facoltativa
Scheda Riassuntiva
Anno Accademico 2024/2025
Scuola Scuola di Ingegneria Industriale e dell'Informazione
Insegnamento 052466 - BUSINESS DATA ANALYTICS
Cfu 10.00 Tipo insegnamento Corso Integrato
Docenti: Titolare (Co-titolari) Nicolussi Federica, Menafoglio Alessandra, Ieva Francesca, Buttice' Vincenzo (De Souza Daniel Fernando), Flori Andrea, Ieva Francesca (Menafoglio Alessandra), Croce Annalisa (De Souza Daniel Fernando)

Corso di Studi Codice Piano di Studio preventivamente approvato Da (compreso) A (escluso) Insegnamento
Ing Ind - Inf (1 liv.)(ord. 270) - BV (394) INGEGNERIA GESTIONALE*ACO052466 - BUSINESS DATA ANALYTICS

Obiettivi dell'insegnamento

La prima parte del corso tratta nuovi approcci nelle aree della modellistica statistica e dell'analisi dei dati, usando idee che colmano il divario tra statistica e il machine learning e sviluppano strumenti per il trattamento statistico dei big data. L'attenzione si concentra sull'apprendimento predittivo, con particolare attenzione ai recenti progressi nell'esplorazione, nella regressione e nella classificazione dei dati.

La seconda parte del corso si concentra principalmente su applicazioni in ambito di business analytics. I temi verranno affrontati sia sul piano teorico e dei metodi sia su quello applicativo, presentando ed approfondendo specifici ambiti di studio legati a tematiche di management ed economia.

I temi verranno affrontati sia sul terreno teorico e dei metodi, sia sul piano applicativo, presentando e approfondendo specifici ambiti di studio. Per far questo il corso si avvale di un approccio blended learning, facendo ampio uso nella prima parte del corso del MOOC di Statistical Learning di Hastie e Tibshirani a cui fa riferimento la Bibliografia, mentre nella seconda parte del corso, le lezioni saranno accompagnate da sessioni di analisi pratica e di programmazione, in cui gli studenti saranno chiamati a sperimentare ed applicare i metodi approfonditi a lezione utilizzando R su dataset.  

Il corso si inserisce nel curriculum del programma complessivo perseguendo alcuni degli obiettivi generali di apprendimento. In particolare, il corso contribuisce allo sviluppo delle seguenti capacità:

  • Progettare soluzioni applicando un approccio scientifico e ingegneristico (capacità di analisi, apprendimento, ragionamento e modellizzazione derivanti da un solido e rigoroso background multidisciplinare) per affrontare problemi e opportunità in un ambiente aziendale e industriale
  • Interagire in modo professionale, responsabile, efficace e costruttivo in un ambiente di lavoro.

Risultati di apprendimento attesi

Alla fine del corso, lo studente:

  • Sarà in grado di progettare ed eseguire con R un'analisi data-driven volta a un problema di classificazione, sia supervisionato che non supervisionato, o alla costruzione di un modello di regressione, gestendo diversi approcci alla selezione del modello.
  • Sfruttando la propria forma mentis ingegneristica e le capacità di analisi dei dati acquisite nel corso, sarà in grado di valutare il significato pratico e statistico del risultato finale dell'analisi dei dati, quantificarne l'incertezza e diagnosticare le sue potenziali carenze, sia nel caso questo debba essere utilizzato per fornire una spiegazione empirica del problema industriale o scientifico oggetto di studio, sia quando il suo obiettivo principale è formulare previsioni.
  • Sarà in grado di selezionare i metodi più opportuni per l’identificazione di effetti causali e per la valutazione dell’efficacia di un trattamento in ambito economico e finanziario; sarà in grado di selezionare i metodi più opportuni per l’analisi delle proprietà topologiche di una rete complessa; comprenderà metodi di clusterizzazione e classificazione di dataset ad alta dimensionalità; comprenderà gli strumenti di base per modellazione di processi stocastici, con particolare riferimento a leggi di accrescimento e a problemi di instabilità.
  • Sarà in grado di estrarre informazioni significative da grandi quantità di dati e di comunicare, trasferire ed interpretare i risultati in modo efficace.

Argomenti trattati

MODULO I

0) MOOC di livellamento

  • Introduzione a R
  • Esplorazione grafica e analisi descrittiva per dati univariati

1) Introduzione allo statistical learning

  • Inferenza (test) per due popolazioni. One way and two way ANOVA per dati univariati
  • Analisi multivariate: esplorazione, quantificazione della dipendenza (matrice di varianza/covarianza)
  • Riduzione dimensionale: Analisi delle Componenti Principali

2) Modelli Lineari (Generalizzati)

  • Regressione lineare semplice e multipla. Stima dei coefficienti, valutazione dell’accuratezza della stima dei coefficienti, valutazione dell’accuratezza del modello. Predittori qualitativi.
  • Selezione del modello e regolarizzazione: subset selection, metodi di shrinkage (ridge regression e lasso).
  • Regressione logistica (binaria and multinomiale). Sensitività, Specificità, Curva ROC

3) Regressione non parametrica, classificazione e clustering

  • Regressione e classificazione supervisionata: KNN, CART, Random Forest.
  • Classificazione non supervisionata. Clustering gerarchico e K-means
  • Cross Validazione

Seguendo un approccio di apprendimento misto, il corso utilizzerà ampiamente il MOOC di Statistical Learning di Hastie e Tibshirani a cui si fa riferimento nella Bibliografia. Tutti i metodi saranno illustrati utilizzando applicazioni di marketing, finanza, biologia e altre aree di interesse scientifico e industriale. Durante il corso e le sessioni di laboratorio, verrà utilizzato e illustrato l'ambiente software R per la statistica computazionale e la rappresentazione grafica (liberamente scaricabile da www.r-project.org).

 

MODULO II

  • Introduzione ai metodi causali per l’inferenza statistica applicata all’economia e al management.
    • Teoria degli studi controllati randomizzati
    • Metodi per l’identificazione e la stima degli effetti causali
    • Variabili strumentali
    • Regression discontinuity design
  • Introduzione alla teoria dei network, con particolare riferimento agli ambiti di management, organizzazione e per lo studio delle reti tra imprese e dei fattori d’instabilità nei sistemi economici, industriali e finanziari:
    • Definizione concettuale ed algebrica di un network
    • Misure globali e locali
    • Algoritmi di centralità
    • Clustering, community detection, struttura core-periphery

I metodi e gli argomenti saranno illustrati usando dataset per applicazioni in ambito management ed economia. A questo fine sarà utilizzato il software libero per l’analisi statistica R (scaricabile da www.r-project.org ) con tutorial esemplificativi illustrati durante le sessioni di laboratorio. Ciascuna esercitazione sarà effettuata a valle delle lezioni teoriche in modo da consentire allo studente la comprensione dell’applicabilità dei modelli studiati.

 


Obiettivi di sviluppo sostenibile - SDGs
Questo insegnamento contribuisce al raggiungimento dei seguenti Obiettivi di Sviluppo Sostenibile dell'Agenda ONU 2030:
  • SDG4 - QUALITY EDUCATION

Prerequisiti

Conoscenza di base di probabilità, statistica e analisi.


Modalità di valutazione

L’esame del modulo è integrato nell’esame finale del corso.

L’esame del corso integrato consiste di una parte con domande a risposta multipla, e di una parte consistente in esercizi, da svolgere con l’eventuale ausilio del software R. 
Si rimanda alla scheda del corso integrato per i dettagli delle modalità d’esame.

In sede d'esame, lo studente dovrà:

  • dimostrare il grado di comprensione degli aspetti fondamentali dell'insegnamento, esponendo in
    modo chiaro ed esaustivo le metodologie utilizzate;
  • dimostrare la propria capacità di applicare le nozioni apprese per risolvere esercizi e problemi
    concreti, i quali potranno vertere su qualunque argomento trattato nel programma.

La composizione della valutazione terrà conto anche della chiarezza di esposizione e della correttezza nei risultati.


Bibliografia
Risorsa bibliografica obbligatoriaStatistical Learning MOOC by Hastie and Tibshirani https://www.edx.org/course/statistical-learning
Risorsa bibliografica obbligatoriaJames G., Witten D., Hastie T. and Tibshirani R., An introduction to statistical learning, with application to R , Editore: Springer, New York, Anno edizione: 2013 http://www-bcf.usc.edu/gareth/ISL/getbook.html
Risorsa bibliografica facoltativaJohnson, R.A. and Wichern, D.W., Applied Multivariate Statistical Analysis (sixth edition), Editore: Prentice Hall, Anno edizione: 2007
Risorsa bibliografica facoltativaHastie, T., Tibshirani, R. and Friedman, J., The Elements of Statistical Learning: data mining, inference and prediction., Editore: Springer-Verlag, New York, Anno edizione: 2009
Risorsa bibliografica obbligatoriaTaddy, M., Business Data Science: Combining Machine Learning and Economics to Optimize, Automate, and Accelerate Business Decisions, Editore: McGraw-Hill Education, Anno edizione: 2019
Risorsa bibliografica obbligatoriaProvost, F. and Fawcett,T., Data Science For Business: What You Need to Know About Data Mining And Data-Analytic Thinking, Editore: O'Reilly Publishing, Anno edizione: 2013
Risorsa bibliografica facoltativaBarabási , A., Network Science, Editore: Cambridge University Press, Anno edizione: 2016

Software utilizzato
Nessun software richiesto

Forme didattiche
Forma Didattica Ore Didattica Assistita
(hh:mm)
% Didattica Assistita
DIDATTICA TRASMISSIVA/FRONTALE
51:00
53.7 %
DIDATTICA INTERATTIVA/PARTECIPATIVA
0:00
0.0 %
DIDATTICA VALUTATIVA
0:00
0.0 %
DIDATTICA LABORATORIALE
44:00
46.3 %
DIDATTICA PROGETTUALE
0:00
0.0 %
Totale ore didattica assistita (hh:mm) 95:00
Totale ore di studio autonomo (hh:mm) 155:00

Informazioni in lingua inglese a supporto dell'internazionalizzazione
Insegnamento erogato in lingua Italiano
schedaincarico v. 1.11.0 / 1.11.0
Area Servizi ICT
19/05/2025