logo-polimi
Loading...
Risorse bibliografiche
Risorsa bibliografica obbligatoria
Risorsa bibliografica facoltativa
Scheda Riassuntiva
Anno Accademico 2014/2015
Scuola Scuola di Ingegneria Industriale e dell'Informazione
Insegnamento 085940 - STATISTICA APPLICATA
Docente Secchi Piercesare
Cfu 10.00 Tipo insegnamento Monodisciplinare

Corso di Studi Codice Piano di Studio preventivamente approvato Da (compreso) A (escluso) Insegnamento
Ing Ind - Inf (Mag.)(ord. 270) - BV (404) INGEGNERIA GESTIONALE* AZZZZ085940 - STATISTICA APPLICATA
Ing Ind - Inf (Mag.)(ord. 270) - BV (429) INGEGNERIA ENERGETICA* AZZZZ085940 - STATISTICA APPLICATA

Programma dettagliato e risultati di apprendimento attesi

Obiettivi
Il corso presenta i concetti e i metodi dell'analisi statistica di dati multivariati enfatizzando le applicazioni a problemi di interesse ingegneristico.

Programma delle lezioni e delle esercitazioni
1. Richiami di algebra lineare. Teorema di decomposizione spettrale. Forme quadratiche. Disuguaglianza di Cauchy-Schwarz estesa. Lemma del massimo.
2. Esplorazione di un set di dati. Richiami di statistica descrittiva. Tipi di dati. Tabelle di distribuzione di frequenza, istogrammi, boxplot. Indici di posizione e di dispersione: media, moda, mediana, percentili, IQR, varianza. Dati multivariati: covarianza e correlazione. Esplorazioni grafiche di dati multivariati e ad alta dimensionalità: grafici di dispersione semplici e multipli, visualizzazioni per mezzo di GGobi. Vettore media e vettori di dispersione. La geometria di un campione di dati multivariati. La varianza generalizzata. La distanza indotta dalla matrice di covarianza.
3. Analisi della struttura di covarianza. Componenti principali e riduzione dimensionale.
4. Inferenza statistica per un vettore di medie. Richiami sulla distribuzione gaussiana multivariata e sugli stimatori ML dei suoi parametri. Distribuzione di Wishart. Distribuzione F di Fisher. Valutazione della normalità multivariata di un campione di dati. Test T2 di Hotelling per la media di una gaussiana multivariata. Regioni di confidenza per un vettore di medie e intervalli di confidenza simultanei per le sue componenti. Il metodo di Bonferroni. Confronto tra le medie di due popolazioni normali con dati accoppiati. Misure ripetute e matrici contrasto. Confronto tra le medie di due popolazioni normali con ugual matrice di covarianza.
5. Modelli lineari. Approccio matriciale e geometrico alla regressione lineare multipla. Regressione lineare multipla con risposta multivariata. La collinearità. Regressione ridge e metodi di shrinkage. Cenni di modelli lineari generalizzati. La regressione logistica. Analisi della varianza (ANOVA) one-way e two-way. Cenni di MANOVA one-way e two-way. Test Lambda di Wilks.
6. Classificazione, discriminazione e raggruppamento. Criteri generali per la classificazione: modello statistico, costi di misclassificazione e prior. Criterio di classificazione bayesiano. Valutazione di un criterio di classificazione: matrice di confusione. Cross-validation. Separazione e classificazione per due distribuzioni gaussiane multivariate. La funzione discriminante lineare di Fisher. Funzioni discriminanti quadratiche. Metodi alternativi per il problema della classificazione: la regressione logistica, i CART. Misure di similarità. Analisi di raggruppamento: metodi gerarchici e metodi non gerarchici. Punti principali di una distribuzione e K-medie. Multidimensional scaling.

Attività di esercitazione e laboratorio progettuale
Il corso prevede attività di esercitazione e di laboratorio progettuale nelle quali si farà uso di calcolatore. Per illustrare i metodi statistici oggetto di studio, e per metterli in pratica nell'analisi di casi reali, verrà utilizzato il linguaggio di programmazione R, un ambiente opensource per l'analisi dei dati scaricabile dal sito:
www.r-project.org .
Si prevede che gli allievi partecipino attivamente alle esercitazioni e alle attività progettuali, presentando - collettivamente o individualmente - soluzioni a quesiti e problemi proposti durante il corso dal docente o dall'esercitatore, così come lo stato di avanzamento del progetto.


Note Sulla Modalità di valutazione

La valutazione degli allievi avverrà negli appelli d'esame previsti dal calendario di Facoltà per mezzo di:

  1. una prova scritta
  2. un colloquio orale
  3. la discussione di un progetto di analisi dei dati da svolgersi in gruppo (max. 3 componenti)

Per risultare promosso, l'allievo deve superare con voto sufficiente tutte e tre le prove. L'incidenza delle tre prove sulla valutazione finale e': 55% prova scritta, 20% colloquio orale, 25% discussione del progetto.


Bibliografia
Risorsa bibliografica obbligatoriaJohnson, R.A. e Wichern, D.W., Applied Multivariate Statistical Analysis (fifth edition), Editore: Prentice Hall, Anno edizione: 2002
Risorsa bibliografica facoltativaSchlesinger E., Algebra Lineare e Geometria, Editore: Zanichelli, Anno edizione: 2011
Risorsa bibliografica facoltativaEveritt B.S. e Dunn G., Applied Multivariate Data Analysis (second edition), Editore: Arnold, Anno edizione: 2001
Risorsa bibliografica facoltativaHastie, T., Tibshirani, R. e Friedman, J., The Elements of Statistical Learning: data mining, inference and prediction. (Second Edition), Editore: Springer, Anno edizione: 2009

Mix Forme Didattiche
Tipo Forma Didattica Ore didattiche
lezione
60.0
esercitazione
40.0
laboratorio informatico
0.0
laboratorio sperimentale
0.0
progetto
0.0
laboratorio di progetto
0.0

Informazioni in lingua inglese a supporto dell'internazionalizzazione
Insegnamento erogato in lingua Italiano
Disponibilità di libri di testo/bibliografia in lingua inglese
Possibilità di sostenere l'esame in lingua inglese
Disponibilità di supporto didattico in lingua inglese
schedaincarico v. 1.6.1 / 1.6.1
Area Servizi ICT
18/02/2020