logo-polimi
Loading...
Risorse bibliografiche
Risorsa bibliografica obbligatoria
Risorsa bibliografica facoltativa
Scheda Riassuntiva
Anno Accademico 2017/2018
Scuola Scuola di Ingegneria Industriale e dell'Informazione
Insegnamento 096049 - IDENTIFICAZIONE DEI MODELLI E DATA MINING [C.I.]
  • 096048 - IDENTIFICAZIONE DEI MODELLI E DATA MINING [2]
Docente Vercellis Carlo
Cfu 5.00 Tipo insegnamento Modulo Di Corso Strutturato

Corso di Studi Codice Piano di Studio preventivamente approvato Da (compreso) A (escluso) Insegnamento
Ing Ind - Inf (Mag.)(ord. 270) - MI (471) BIOMEDICAL ENGINEERING - INGEGNERIA BIOMEDICA*AZZZZ085811 - IDENTIFICAZIONE DEI MODELLI E DATA MINING [C.I.]
088779 - IDENTIFICAZIONE DEI MODELLI E ANALISI DEI DATI 2
096049 - IDENTIFICAZIONE DEI MODELLI E DATA MINING [C.I.]
051152 - DATA MINING

Programma dettagliato e risultati di apprendimento attesi

Il corso descrive i metodi di data mining e i modelli di machine learning, e ne illustra numerose applicazioni.

Data mining
Definizione di data mining. Rappresentazione dei dati in ingresso. Processo di data mining. Metodologie di analisi.

Preparazione dei dati
Validazione: dati incompleti e soggetti a rumore. Trasformazione: standardizzazione, estrazione di attributi. Riduzione: campionamento, selezione degli attributi, analisi delle componenti principali, discretizzazione.

Esplorazione dei dati
Analisi univariata: analisi grafica di attributi e numerici, indici di posizionamento centrale, di dispersione e di posizionamento relativo per attributi numerici; identificazione degli outlier; indici di eterogeneità per attributi categorici; analisi della densità empirica. Analisi bivariata: analisi grafica; indici di correlazione per attributi numerici; tabelle di contingenza per attributi categorici. Analisi multivariata: analisi grafica, indici di correlazione per attributi numerici.

Regressione
Struttura dei modelli di regressione: regressione lineare semplice, calcolo della retta di regressione. Regressione lineare multipla: calcolo dei coefficienti di regressione, assunzioni relative ai residui, trattamento di attributi predittivi categorici, regressione ridge, regressione lineare generalizzata. Valutazione dei modelli di regressione: normalità e indipendenza dei residui, significatività dei coefficienti, analisi della varianza, coefficiente di determinazione, coefficiente di correlazione lineare, multi-collinearità delle variabili indipendenti, limiti di confidenza e di predizione. Selezione delle variabili predittive.

Classificazione
Problemi di classificazione. Valutazione di modelli di classificazione: metodo holdout, campionamenti casuali ripetuti, cross-validation; matrici di confusione; grafici ROC, di guadagno cumulato e di lift. Alberi di classificazione: regole di separazione; criteri di separazione univariati; criteri di arresto e regole di pruning. Metodi bayesiani: classificatore bayesiano naive; reti bayesiane. Regressione logistica. Reti neurali: perceptrone di Rosenblatt; reti feed-forward a più livelli. Support vector machines: minimizzazione del rischio strutturale; iperpiani di margine massimo per la separazione lineare; separazione nonlineare.

Regole associative
Struttura e valutazione delle regole associative. Regole associative a dimensione singola. Algoritmo Apriori: generazione degli itemset frequenti; generazione delle regole. Altre regole di associazione.

Clustering
Caratteristiche dei modelli di clustering. Misure di affinità. Metodi di partizione: algoritmo delle K-medie; algoritmo dei K-medoidi. Metodi gerarchici: metodi di agglomerazione e di suddivisione. Valutazione dei modelli di clustering.


Note Sulla Modalità di valutazione

Esame scritto

Written exam


Bibliografia
Risorsa bibliografica obbligatoriaCarlo Vercellis, Business intelligence - Modelli matematici e sistemi per le decisioni, Editore: McGraw-Hill, Anno edizione: 2006, ISBN: 9788838663468 http://www.catalogo.mcgraw-hill.it/catlibro.asp?item_id=2007
Risorsa bibliografica obbligatoriaCarlo Vercellis, Business Intelligence: Data Mining and Optimization for Decision Making, Editore: Wiley, Anno edizione: 2009, ISBN: 9780470511381 http://onlinelibrary.wiley.com/book/10.1002/9780470753866

Software utilizzato
Nessun software richiesto

Mix Forme Didattiche
Tipo Forma Didattica Ore didattiche
lezione
30.0
esercitazione
20.0
laboratorio informatico
0.0
laboratorio sperimentale
0.0
progetto
0.0
laboratorio di progetto
0.0

Informazioni in lingua inglese a supporto dell'internazionalizzazione
Insegnamento erogato in lingua Italiano
Disponibilità di materiale didattico/slides in lingua inglese
Disponibilità di libri di testo/bibliografia in lingua inglese
schedaincarico v. 1.6.9 / 1.6.9
Area Servizi ICT
05/12/2021