logo-polimi
Loading...
Risorse bibliografiche
Risorsa bibliografica obbligatoria
Risorsa bibliografica facoltativa
Scheda Riassuntiva
Anno Accademico 2014/2015
Scuola Scuola di Ingegneria Industriale e dell'Informazione
Insegnamento 096049 - IDENTIFICAZIONE DEI MODELLI E DATA MINING [C.I.]
  • 096048 - IDENTIFICAZIONE DEI MODELLI E DATA MINING [2]
Docente Vercellis Carlo
Cfu 5.00 Tipo insegnamento Modulo Di Corso Strutturato

Corso di Studi Codice Piano di Studio preventivamente approvato Da (compreso) A (escluso) Insegnamento
Ing Ind - Inf (Mag.)(ord. 270) - MI (401) INGEGNERIA BIOMEDICA* AZZZZ085811 - IDENTIFICAZIONE DEI MODELLI E DATA MINING [C.I.]
Ing Ind - Inf (Mag.)(ord. 270) - MI (471) BIOMEDICAL ENGINEERING - INGEGNERIA BIOMEDICA* AZZZZ085811 - IDENTIFICAZIONE DEI MODELLI E DATA MINING [C.I.]
096049 - IDENTIFICAZIONE DEI MODELLI E DATA MINING [C.I.]

Programma dettagliato e risultati di apprendimento attesi

Il corso descrive i metodi di data mining e i modelli di machine learning, e ne illustra numerose applicazioni.

Data mining
Definizione di data mining. Rappresentazione dei dati in ingresso. Processo di data mining. Metodologie di analisi.

Preparazione dei dati
Validazione: dati incompleti e soggetti a rumore. Trasformazione: standardizzazione, estrazione di attributi. Riduzione: campionamento, selezione degli attributi, analisi delle componenti principali, discretizzazione.

Esplorazione dei dati
Analisi univariata: analisi grafica di attributi e numerici, indici di posizionamento centrale, di dispersione e di posizionamento relativo per attributi numerici; identificazione degli outlier; indici di eterogeneità per attributi categorici; analisi della densità empirica. Analisi bivariata: analisi grafica; indici di correlazione per attributi numerici; tabelle di contingenza per attributi categorici. Analisi multivariata: analisi grafica, indici di correlazione per attributi numerici.

Regressione
Struttura dei modelli di regressione: regressione lineare semplice, calcolo della retta di regressione. Regressione lineare multipla: calcolo dei coefficienti di regressione, assunzioni relative ai residui, trattamento di attributi predittivi categorici, regressione ridge, regressione lineare generalizzata. Valutazione dei modelli di regressione: normalità e indipendenza dei residui, significatività dei coefficienti, analisi della varianza, coefficiente di determinazione, coefficiente di correlazione lineare, multi-collinearità delle variabili indipendenti, limiti di confidenza e di predizione. Selezione delle variabili predittive.

Classificazione
Problemi di classificazione. Valutazione di modelli di classificazione: metodo holdout, campionamenti casuali ripetuti, cross-validation; matrici di confusione; grafici ROC, di guadagno cumulato e di lift. Alberi di classificazione: regole di separazione; criteri di separazione univariati; criteri di arresto e regole di pruning. Metodi bayesiani: classificatore bayesiano naive; reti bayesiane. Regressione logistica. Reti neurali: perceptrone di Rosenblatt; reti feed-forward a più livelli. Support vector machines: minimizzazione del rischio strutturale; iperpiani di margine massimo per la separazione lineare; separazione nonlineare.

Regole associative
Struttura e valutazione delle regole associative. Regole associative a dimensione singola. Algoritmo Apriori: generazione degli itemset frequenti; generazione delle regole. Altre regole di associazione.

Clustering
Caratteristiche dei modelli di clustering. Misure di affinità. Metodi di partizione: algoritmo delle K-medie; algoritmo dei K-medoidi. Metodi gerarchici: metodi di agglomerazione e di suddivisione. Valutazione dei modelli di clustering.


Note Sulla Modalità di valutazione

Esame scritto

Written exam


Bibliografia
Risorsa bibliografica obbligatoriaCarlo Vercellis, Business intelligence - Modelli matematici e sistemi per le decisioni, Editore: McGraw-Hill, Anno edizione: 2006, ISBN: 9788838663468 http://www.catalogo.mcgraw-hill.it/catlibro.asp?item_id=2007
Risorsa bibliografica obbligatoriaCarlo Vercellis, Business Intelligence: Data Mining and Optimization for Decision Making, Editore: Wiley, Anno edizione: 2009, ISBN: 9780470511381 http://onlinelibrary.wiley.com/book/10.1002/9780470753866

Mix Forme Didattiche
Tipo Forma Didattica Ore didattiche
lezione
30.0
esercitazione
20.0
laboratorio informatico
0.0
laboratorio sperimentale
0.0
progetto
0.0
laboratorio di progetto
0.0

Informazioni in lingua inglese a supporto dell'internazionalizzazione
Insegnamento erogato in lingua Italiano
Disponibilità di libri di testo/bibliografia in lingua inglese
schedaincarico v. 1.6.5 / 1.6.5
Area Servizi ICT
30/11/2020